NVIDIA та Mozilla оприлюднили оновлення наборів голосових даних, зібраних в результаті ініціативи Common Voice Initiative

NVIDIA і Mozilla представили оновлення наборів голосових даних, зібраних в результаті ініціативи Common Voice і включають приклади вимови 182 тисяч осіб, що на 25% більше, ніж 6 місяців тому. Дані публікуються у відкритому доступі (CC0). Запропоновані набори можуть бути використані в системах машинного навчання для побудови моделей розпізнавання і синтезу мови.

У порівнянні з попереднім оновленням розмір обсягу мовного матеріалу в збірнику збільшився з 9 до 13, 9 тисяч годин мови. Кількість підтримуваних мов зросла з 60 до 76, включаючи підтримку білоруської, казахської, узбецької, болгарської, вірменської, азербайджанської та башкирської мов вперше. Набір з російської мови охоплює 2136 учасників і 173 години мовного матеріалу (було 1412 учасників і 111 годин), а для української мови - 615 учасників і 66 годин (було 459 учасників і 30 годин).

У підготовці матеріалів англійською мовою взяли участь понад 75 тисяч осіб, які диктували 2637 годин підтвердженої промови (було 66 тисяч учасників і 1686 годин). Цікаво, що на другому місці за обсягом накопичених даних на другому місці знаходиться руандійський мову , для якого зібрано 2260 годин. Далі йдуть німецька (1040), каталонська (920) і есперанто (840). Серед найбільш динамічно зростаючих розмірів мов голосових даних можна виділити тайську (зростання бази даних в 20 разів, з 12 до 250 годин), Лугандську (з 8 до 80 годин), есперанто (з 100 до 840 годин) і тамільську (з 24 до 220 годин).

В рамках своєї участі в проекті Common Voice NVIDIA підготувала готові навчені моделі для систем машинного навчання (підтримується PyTorch) на основі зібраних даних. Моделі поширюються як частина безкоштовного і відкритого інструментарію NVIDIA NeMo . Моделі спрямовані на використання в системах розпізнавання мови, синтезу мови і природної мови, і можуть бути корисні для дослідників, що займаються створенням систем голосового діалогу, платформ транскрипції і автоматизованих колл-центрів. На відміну від раніше доступних проектів, опубліковані моделі не обмежуються розпізнаванням англійської мови і охоплюють різні мови, акценти і форми мови.

Проект Common Voice спрямований на організацію спільної роботи по накопиченню бази голосових шаблонів з урахуванням різноманітності голосів і манер мови. Користувачів просять озвучити фрази, що відображаються на екрані, або оцінити якість доданих іншими користувачами даних. Накопичена база даних із записами різних вимов типових фраз людської мови може використовуватися без обмежень в системах машинного навчання і в дослідницьких проектах.

На думку автора об'єднаної бібліотеки розпізнавання мови Vosk , недоліками набору Common Voice є односторонність голосового матеріалу (переважання людей чоловічої статі 20-30 років, і відсутність матеріалу з голосом жінок, дітей і літніх людей), відсутність варіативності словникового запасу (повторення одних і тих же фраз) і поширення записів в спотвореному форматі MP3.

Інші новини

Найкраща ціна

Microsoft
Windows 11 Professional

10 483.00 грн

Microsoft
Windows 11 Professional

10 483.00 грн

Norton by Symantec
Norton Security Premium

4 619.00 грн

Авторизація

Реєстрація

Нагадати пароль