Нейросеть Speech2Face може відтворювати за спектрограмою мови людини зразкове зображення її обличчя

Американські вчені з Массачусетського технологічного інституту представили нейромережу Speech2Face, яка може відтворювати за спектрограмою мови людини зразкове зображення її обличчя.

Нейросеть Speech2Face навчена на декількох мільйонах відео з голосом користувачів. Кожне відео розділене на запис аудіо та відео. Сам алгоритм розділений на кілька частин: одна з них використовує всі унікальні особливості обличчя з відеодоріжки для створення знімка особи людини в анфас, інша намагається відтворити з аудіодоріжки ролика спектрограму мови та дивиться, як виглядає анфас людини, яка говорить на оригінальному відео.

У методології нейромережі зображення людини і голос поділяються на три демографічні показники — стать, вік та расу.

Під час тестування вченим поки не до кінця вдалося навчити нейромережу відновити зовнішність людини на основі голосу. Штучний інтелект завжди може визначити стать, а також найчастіше вгадує людей з азіатською та європеоїдною зовнішністю. Однак поки Speech2Face не може точно визначити вік навіть із різницею у десять років.

Вчені відзначили, що головне в роботі Speech2Face - все ж таки не створення точної копії зображення людини за його голосом, а виділення з нього деяких точних параметрів. При цьому, природно, за голосом людини неможливо зрозуміти, якою у неї форми ніс чи знаходиться на об'єкті велика родимка.

Інші новини

Найкраща ціна

Chaos Group
VRScans

4 514.00 грн

Chaos Group
VRScans

5 016.00 грн

Chaos Group
VRScans

9 576.00 грн

Авторизація

Реєстрація

Нагадати пароль