+38/050/370-3627
+38/093/220-0872
+38/044/257-2444
Новини

Mozilla представила систему синтезу промови LPCNet

Mozilla представила систему синтезу промови LPCNet

Mozilla розвиває нову систему синтезу мови LPCNet, яка доповнює раніше запущену ініціативу з розробки системи розпізнавання мови. LPCNet забезпечує ефективніший синтез мови завдяки комбінуванню традиційних методів цифрової обробки сигналів (DSP) з механізмами синтезу на основі машинного навчання. Вихідні тексти реалізації LPCNet розповсюджуються під ліцензією BSD.

Незважаючи на те, що сучасні моделі синтезу мови на основі нейронних мереж, такі як WaveNet, дозволяють досягти чудової якості синтезу, їх реалізація сильно ускладнена і вимагає великої обчислювальної потужності. Ця особливість ускладнює використання подібних систем для синтезу мови в режимі реального часу на таких пристроях, як телефони.

В якості виходу в LPCNet пропонується використовувати DSP для LPC-фільтрації (Linear Prediction) та моделювання вокального тракту з подальшою обробкою отриманих параметрів у рекурентній нейронній мережі. Особливістю LPCNet і те, замість передачі у нейронну мережу лише вибраних семплів, виробляється приблизне прогнозування наступного семпла, що дозволяє помітно скоротити розмір нейронної мережі і зменшити необхідні її роботи ресурси. Таким чином, з нейронної мережі знімається робота з моделювання вокального тракту і залишається лише завдання коригування проблем під час прогнозування.

Окрім синтезу промови LPCNet також може застосовуватися і в інших областях, що вимагають підвищення якості голосового сигналу. Наприклад, LPCNet підходить для створення технологій стиснення мови для передачі по низькошвидкісних каналах зв'язку (вже розвивається відповідний кодек), для усунення шумів, для зміни швидкості відтворення мови, для фільтрації результату роботи різних кодеків і для синтезування відсутніх фрагментів, загублених через втрату пакетів.

Код реалізації LPCNet написаний мовою Сі з використанням Keras, високорівневого фреймворку для побудови нейронних мереж, який може працювати поверх TensorFlow, CNTK та Theano. Для роботи потрібно GPU (достатньо GT1060, але для навчання моделі рекомендується використовувати потужніший GPU з підтримкою CUDA і CUDNN, наприклад GTX 1080 Ti). Для завантаження доступні вже готові моделі, натреновані на голосових даних від лабораторії університету Макгілла. Систему можна навчити і на своїх даних, для цього знадобиться кілька годин анотованих записів голосу (наприклад, можна навчити LPCNet синтезувати мову будь-яким голосом).

Інші новини

Найкраща ціна