+38/050/370-3627
+38/093/220-0872
+38/044/257-2444
Новости

Microsoft удалось значительно усовершенствовать технологии генерации речи

Microsoft удалось значительно усовершенствовать технологии генерации речи

Microsoft удалось значительно усовершенствовать технологии генерации речи. Разработанную нейросеть отличает естественное произношение, практически неотличимая от человеческой, и малый объем размеченной выборки, необходимой для обучения.

В основе разработки лежит нейроархитектура под названием Transformers, созданная одной из команд Google в 2017 году. Принцип обработки информации, который она применяет, в общих чертах повторяет механизм работы человеческого мозга. В частности, модели, построенные на ее базе, обладают способностью удерживать внимание — входные и выходные значения обрабатываются в динамическом режиме, что позволяет системе не терять контекст даже при работе с длинными фразами. Также в систему входит кодировщик, устраняющий лишние шумы из аудиоматериала и восстанавливающий поврежденные записи.

Для обучения нейросети исследователи отобрали из базы LJSpeech 200 коротких записей человеческой речи — в общей сложности около двадцати минут непрерывного звучания — и снабдили каждый из них транскрипцией. Исследователи подчеркнули, что клипы отбирались случайным образом, без сортировки по качеству звука, чтобы проверить также и работу кодировщика. За исключением этого набора больше предварительно обработанных данных системе не предоставлялось. Тем не менее, на стадии тестирования она показала результаты, превосходящие показатели стандартных алгоритмов: сгенерированная речь была различима в 99,84% случаев. 

Для сравнения на странице проекта авторы представили несколько записей одинаковых текстов в двух вариантах: первый был создан обычными методами на базе выборки в 200 единиц, второй — с применением новых технологий Google при том же объеме учебного материала. Очевидная разница как во внятности произношения, так и в сходстве с голосом реального человека позволяет судить о преимуществах, которые дает система Transformers.

По мнению авторов, практическая значимость разработки состоит в том, чтобы сделать инструменты распознавания и генерации речи более доступными. Упрощенный процесс обучения на небольшом наборе данных будет стимулировать более широкое их применение в малом бизнесе и даже в индивидуальных проектах. Кроме того, станет значительно проще работать с языками, которые не располагают крупными базами данных с обработанным материалом, не жертвуя при этом качеством результата.

Код проекта в скором времени будет предоставлен в открытый доступ.

Другие новости

Лучшая цена