Google представил бета-версию аудиокодека Lyra на базе машинного обучения
Google представил бета-версию аудиокодека Lyra на базе машинного обучения, который позволяет достичь максимального качества передачи речи даже при использовании очень медленных каналов связи
Кодек состоит из кодировщика и декодировщика. Роль первого состоит в извлечении параметров голосовых данных каждые 40 миллисекунд, их сжатию и передаче получателю по сети. Декодер преобразует этих данные обратно в звуковую волну, которую можно воспроизвести на стороне слушателя.
Отмечается, что для передачи необработанного звука необходим канал связи со скоростью всего 3 Кбит/с.
Lyra написан на C++ при помощи фреймворка Bazel. По словам Google, его архитектура в большей степени похожа на архитектуру традиционных аудиокодеков, использующих обычные методы сжатия звука. Преимущество Lyra заключается в способности декодеровщика восстанавливать высококачественный сигнал с помощью генеративной системы машинного обучения. Она позволяет воссоздавать недостающую информацию на основе типовых характеристик речи. Модель для генерации звука обучена на нескольких тысячах часов с записями голосов более чем на 70 языках.
По мнению Google, новый аудиокодек может применяться в разных сферах, например для архивирования больших объёмов записи речи, для экономии заряда аккумулятора в смартфонах, а также для снижения нагрузки на сеть в чрезвычайных ситуациях.