Microsoft обучила искусственный интеллект разговаривать по-человечески

+38/050/370-3627
+38/093/220-0872
+38/044/257-2444

Главная › Новости › Microsoft обучила искусственный интеллект разговаривать по-человечески

26 сентября 2018

Microsoft обучила искусственный интеллект разговаривать по-человечески

Исследователи из Microsoft сделали записи компьютерного голоса, имитирующего человеческую речь. Для преодоления трудностей традиционной модели они использовали нейронные сети для синтеза речи. Microsoft обещает обеспечить поддержку 49 языков и возможность создания уникальных голосов для нужд компаний в ближайшем будущем.

Просодика

Синтез речи с помощью нейронных сетей предполагает сравнение ударения и протяжённости (т. н. просодика) единиц речи говорящего, а также их синтез в компьютерный голос. В системах традиционного синтеза речи просодику разделяют на акустический и лингвистический анализ, которыми управляют различные модели. В результате речь получается шумной и невнятной. Представители Microsoft утверждают, что в модели нейронного синтеза два этапа объединены в один, поэтому голос звучит похожим на реальный.

Разработчики убеждены, что синтез речи с помощью нейронных сетей сделает более естественным общение с виртуальными собеседниками и помощниками. Более того, это даст возможность конвертировать электронные книги в аудиокниги и позволит изменить озвучивание встроенных в автомобили навигаторов.

Вычислительные мощности Azure доступны для использования в реальном времени, и за это отвечает служба Azure Kubernetes. Одновременное применение нейронного синтеза речи вместе с традиционным говорят о расширении и повышении доступности сервиса. Пока в системе имеются женский голос по имени Jessa и мужской с именем Guy.

Microsoft соревнуется в технологиях распознавания и синтеза речи с Google, которая обновила свои сервисы в конце августа 2018 года. Команда Google Cloud объявила о выпуске стабильного API для синтеза речи Cloud Text-to-Speech с экспериментальной функцией аудиопрофилей и поддержкой нескольких новых языков. В то же время сервис для расшифровки аудио Cloud Speech-to-Text научился распознавать разных спикеров и самостоятельно определять язык записи из нескольких возможных.

Другие новости

Лучшая цена

Chaos Group
VRScans

4 514.00 грн

Chaos Group
VRScans

5 016.00 грн

Chaos Group
VRScans

9 576.00 грн

Авторизация

Регистрация

Напомнить пароль