Google опублікував оновлення аудіокодека Lyra 0.0.2, оптимізованого для повільних каналів зв'язку
Google опублікував оновлення аудіокодеку Ліра 0.0.2, оптимізоване для повільних каналів зв'язку
Компанія Google опублікувала оновлення аудіокодеку Ліра 0.0.2, оптимізоване для досягнення максимальної якості мови при використанні дуже повільних каналів зв'язку. Кодек Ліра був відкритий на початку квітня, але був відправлений спільно з власною математичною бібліотекою. У версії 0.0.2 цей недолік усувається і для цієї бібліотеки створена відкрита заміна - sparse_matmul, яка, як і сам кодек, поширюється під ліцензією Apache 2.0. Інші вдосконалення включають можливість використання системи збірки Bazel з компілятором GCC і використання цього пакета за замовчуванням в Linux замість Bazel + Clang.
За якістю голосових даних, що передаються на малих швидкостях, Ліра значно перевершує традиційні кодеки, в яких використовуються цифрові методи обробки сигналів. Для досягнення високої якості передачі голосу в умовах обмеженого обсягу переданої інформації, крім звичайних методів стиснення звуку і перетворення сигналу, Ліра використовує мовну модель, засновану на системі машинного навчання, що дозволяє відтворити відсутню інформацію на основі типових мовних характеристик. Модель, що бере участь в генерації звуку, навчається за допомогою декількох тисяч годин з голосовими записами більш ніж на 70 мовах. Продуктивності пропонованої реалізації досить для кодування і декодування мови в режимі реального часу на смартфонах середнього цінового діапазону, із затримкою передачі сигналу в 90 мілісекунд.
Ліра версії 0.0.2 тепер доступна на GitHub. Основним удосконаленням цієї версії є випуск з відкритим вихідним кодом коду бібліотеки sparse_matmul, який був спільно розроблений Google і DeepMind. Це означає, що більше немає попередньо скомпільованих динамічних бібліотечних двійкових файлів ".so" і більше немає обмежень щодо того, який набір інструментів використовувати, що відкриває двері для портування Ліри на різні платформи. Повний список функцій і виправлень включає в себе:
- Випустіть sparse_matmul код бібліотеки та видаліть попередньо скомпільовані динамічні двійкові файли бібліотеки.
- Додайте підтримку ланцюжка інструментів Bazel за замовчуванням gcc на linux і зробіть це за замовчуванням замість ланцюжка інструментів clang.
- Виправте шумові сплески на початку виведення аудіофайлів.
- Абстрагуйтесь з функцій UnitFloatToInt16Scalar, UnitFloatToInt16 та Int16ToUnitFloat.
- Надайте оператор<< для unique_ptr, які будуть використовуватися з макросами CHECK().
- Виправлення сумісності поплавкового розподілу в benchmark_decode_lib.