Нейросеть T2F генерує портрети на основі текстового опису обличчя людини

Розробник Animesh Karnewar створив нейромережу T2F, яка генерує портрети на основі текстового опису особи людини. За словами автора, на створення алгоритму його надихнула цікавість: він завжди хотів дізнатися, як герої книг виглядали б у реальному житті. Вихідний код проекту доступний на GitHub.

Набір даних та архітектура

Карневар використовував набір даних Face2Text, який містить 400 зображень з текстовим описом кожного з них і додатковою інформацією. Наприклад, деякі з фотографій можуть мати позначку «Людина на картинці, ймовірно, злочинець». В основі F2T лежать архітектури StackGAN і StackGAN++ для синтезу зображень з тексту.

Принцип роботи

Нейросеть з довгою короткостроковою пам'яттю кодує текстовий опис у сумарний вектор, одна частина якого є випадковим гаусівським шумом. Генеративно-змагальна мережа (GAN) використовує його для поетапного збільшення просторового зображення. У результаті виходить максимально можлива чітка картинка.

Аналог T2F

У січні 2018 року Microsoft представила «уважну» GAN, яка враховує важливі деталі в описі, оцінює кожне слово і малює зображення на їх основі.

Майбутнє

Карневар вважає, що T2F можуть використовувати правоохоронні органи для створення портретів злочинців та жертв. Він продовжить розвиток проекту і спробує навчити нейромережу на наборах даних Flicker8K і Coco.

У кінці квітня 2018 року група вчених з Microsoft і Кіотського університету представила нейромережу, здатну генерувати рими на основі зображень з підписами.

Інші новини

Найкраща ціна

Microsoft
Windows 11 Professional

10 483.00 грн

Microsoft
Windows 11 Professional

10 483.00 грн

Norton by Symantec
Norton Security Premium

4 619.00 грн

Авторизація

Реєстрація

Нагадати пароль