Microsoft вдалося значно вдосконалити технології генерації мовлення

Microsoft вдалося значно вдосконалити технології генерації мови. Розроблену нейромережу відрізняє природна вимова, практично не відрізняється від людської, і малий обсяг розміченої вибірки, необхідної для навчання.

В основі розробки лежить нейроархітектура під назвою Transformers, створена однією з команд Google у 2017 році. Принцип обробки інформації, який вона застосовує, загалом повторює механізм роботи людського мозку. Зокрема, моделі, побудовані на її базі, мають здатність утримувати увагу - вхідні та вихідні значення обробляються в динамічному режимі, що дозволяє системі не втрачати контекст навіть при роботі з довгими фразами. Також в систему входить кодувальник, що усуває зайві шуми з аудіоматеріалу та Для відновлення нейромережі дослідники відібрали з бази LJSpeech 200 коротких записів людської мови — загалом близько двадцяти хвилин безперервного звучання — і забезпечили кожен з них транскрипцією. Дослідники підкреслили, що кліпи відбиралися випадковим чином, без сортування за якістю звуку, щоб перевірити також роботу кодувальника. За винятком цього набору більше попередньо оброблених даних системі не надавалося. Тим не менш, на стадії тестування вона показала результати, що перевершують показники стандартних алгоритмів: згенерована мова була помітна в 99,84% випадків.

Для порівняння на сторінці проекту автори представили кілька записів однакових текстів у двох варіантах: перший був створений звичайними методами на базі вибірки 200 одиниць, другий — із застосуванням нових технологій Google при тому ж обсязі навчального матеріалу. Очевидна різниця як у виразності вимови, так і в подібності до голосу реальної людини дозволяє судити про переваги, які дає система Transformers.

На думку авторів, практична значущість розробки полягає в тому, щоб зробити інструменти розпізнавання та генерації мови більш доступними. Спрощений процес навчання на невеликому наборі даних стимулюватиме ширше їх застосування у малому бізнесі і навіть в індивідуальних проектах. Крім того, стане значно простіше працювати з мовами, які не мають великих баз даних з обробленим матеріалом, не жертвуючи при цьому якістю результату.

Код проекту незабаром буде надано у відкритий доступ.

Інші новини

Найкраща ціна

Chaos Group
VRScans

4 514.00 грн

Chaos Group
VRScans

5 016.00 грн

Chaos Group
VRScans

9 576.00 грн

Авторизація

Реєстрація

Нагадати пароль