Система розпізнавання мови DeepSpeech від Mozilla отримала значне підвищення продуктивності

+38/050/370-3627
+38/093/220-0872
+38/044/257-2444

Головна › Новини › Система розпізнавання мови DeepSpeech від Mozilla отримала значне підвищення продуктивності

5 грудня 2019

Система розпізнавання мови DeepSpeech від Mozilla отримала значне підвищення продуктивності

Система DeepSpeech, яка є набором засобів розпізнавання мови і підтримується групою розробників з Mozilla, отримала оновлення. Нова версія DeepSpeech v0.6 є однією з найшвидших моделей розпізнавання мови з відкритим кодом серед представлених до сьогоднішнього дня. Про те, які покращення отримала система, один із розробників компанії Mozilla розповів у своєму блозі.

В останній версії DeepSpeech було інтегровано підтримку TensorFlow Lite, версії системи машинного навчання компанії Google, оптимізованої для роботи на мобільних пристроях з обмеженими обчислювальними можливостями. В результаті, розмір DeepSpeech зменшився з 98 Мбайт до 3,7 Мбайт, а розмір готової вбудованої моделі англійською мовою знизився зі 188 Мбайт. Мб до 47 Мб. Також зазначається, що споживання пам'яті скоротилося у 22 рази, а швидкість запуску процесу обробки даних зросла більш ніж у 500 разів.

Ще система DeepSpeech v0.6 в цілому стала значно більш продуктивною завдяки використанню нового потокового декодера, який забезпечує постійно низький рівень затримок та використання пам'яті незалежно від довжини звуку, що транскрибується. Обидві основні підсистеми платформи (акустична модель та декодер) тепер підтримують потокову передачу, завдяки чому розробникам не потрібно здійснювати тонке налаштування власного обладнання. Оновлена версія DeepSpeech здатна забезпечити транскрипцію вже через 260 мс після закінчення аудіо, що на 73% швидше порівняно з показниками системи до інтеграції потокового декодера.

Слід зазначити, що в плані продуктивності нова система працює в двічі швидше, коли доходить до навчання моделі. Досягти цього вдалося завдяки використанню системи TensorFlow 1.14 та інтеграції нових API.

Для навчання моделі використовується набір голосових даних Common Voice, що складається з 1400 годин мови 18 різними мовами. Розробники зазначають, що це один із найбільших багатомовних наборів голосових даних. Він значно більший від набору Common Voice, опублікованого в минулому і що складається з 500 годин мови з прикладами вимови 20 000 добровольців (усі записи англійською мовою). В даний час компанія веде активну роботу зі збору даних 70 мовами, щоб у майбутньому зробити DeepSpeech ще більш досконалою.

Інші новини

Найкраща ціна

Chaos Group
VRScans

4 514.00 грн

Chaos Group
VRScans

5 016.00 грн

Chaos Group
VRScans

9 576.00 грн

Авторизація

Реєстрація

Нагадати пароль