Google представив бета-версію аудіокодеку Ліра, засновану на машинному навчанні
Компанія Google представила бета-версію аудіокодеку Ліри на основі машинного навчання, що дозволяє досягти максимальної якості передачі мови навіть при використанні дуже повільних каналів зв'язку
Кодек складається з кодера і декодера. Роль першого полягає в тому, щоб кожні 40 мілісекунд отримувати параметри голосових даних, стискати їх і передавати одержувачу по мережі. Декодер перетворює ці дані назад в звукову хвилю, яку можна відтворити на стороні слухача.
Відзначається, що для передачі сирого звуку необхідний канал зв'язку зі швидкістю всього 3 Кбіт / с.
Ліра написана на C++ з використанням фреймворку Bazel. За даними Google, його архітектура більше схожа на архітектуру традиційних аудіокодеків, які використовують звичайні методи стиснення звуку. Перевагою Ліри є здатність декодера відновлювати якісний сигнал за допомогою генеративної системи машинного навчання. Він дозволяє відтворити відсутню інформацію на основі типових особливостей мови. Модель для генерації звуку тренується на декількох тисячах годин з голосовими записами більш ніж на 70 мовах.
За даними Google, новий аудіокодек може використовуватися в різних сферах, наприклад, для архівування великих обсягів запису мови, для економії заряду батареї в смартфонах, а також для зниження навантаження на мережу в екстрених ситуаціях.