Нейросітка Speech2Face може відтворювати за спектрограмою мови людини зразкове зображення її обличчя
Нейросеть Speech2Face може відтворювати за спектрограмою мови людини зразкове зображення її обличчя
Американські вчені з Массачусетського технологічного інституту представили нейромережу Speech2Face, яка може відтворювати за спектрограмою мови людини зразкове зображення її обличчя.
Нейросеть Speech2Face навчена на декількох мільйонах відео з голосом користувачів. Кожне відео розділене на запис аудіо та відео. Сам алгоритм розділений на кілька частин: одна з них використовує всі унікальні особливості обличчя з відеодоріжки для створення знімка особи людини в анфас, інша намагається відтворити з аудіодоріжки ролика спектрограму мови та дивиться, як виглядає анфас людини, яка говорить на оригінальному відео.
>У методології нейромережі зображення людини і голос поділяються на три демографічні показники — стать, вік та расу.
Під час тестування вченим поки не до кінця вдалося навчити нейромережу відновити зовнішність людини на основі голосу. Штучний інтелект завжди може визначити стать, а також найчастіше вгадує людей з азіатською та європеоїдною зовнішністю. Однак поки Speech2Face не може точно визначити вік навіть із різницею у десять років.Вчені відзначили, що головне в роботі Speech2Face - все ж таки не створення точної копії зображення людини за його голосом, а виділення з нього деяких точних параметрів. При цьому, природно, за голосом людини неможливо зрозуміти, якою у неї форми ніс чи знаходиться на об'єкті велика родимка.