Нейросеть навчилася відтворювати тривимірні сцени за фотографіями
Нейросеть навчилася відтворювати тривимірні сцени за фотографіями
Розробники з DeepMind представили алгоритм Generative Query Network (GQN) на нейроселях, який досліджує двовимірну сцену і визначає, як вона виглядатиме в тривимірному просторі.
GQN складається з генеративної та репрезентативної мереж. Репрезентативна нейромережа кодує інформацію про отримані двовимірні зображення і представляє її у вигляді вектора. Потім генеративна мережа передбачає, як виглядатиме оточення з нової точки спостереження, і створює тривимірний рендер.
Репрезентативна мережа не знає кінцевих ракурсів, тому для точного результату достовірно описує розташування предметів, їх колір і розміри, джерела освітлення та інші деталі.
Якщо нейромережа бачить один і той же об'єкт багато разів, то запам'ятовує його характеристики і використовує при наступних взаємодіях. За словами розробників, ІІ здатний відтворити лабіринт, просканувавши кілька зроблених зсередини фотографій.
Тести у віртуальному тривимірному світі показали, що GQN створює якісні зображення без знань про закони перспективи чи освітлення. Також система класифікує частково приховані об'єкти і вважає їх кількість.
Розробники навчали нейромережі тільки на штучно створених даних, однак у перспективі вони мають намір використовувати реальні сцени.
У травні 2018 року дослідники з Google представили алгоритм Stereo Magnification, який із двох знятих з близьких ракурсів кадрів відтворює нові знімки з інших ракурсів. На відміну від GQN, він не створює зображення. з принципово іншого кута огляду, але працює з реальними фотографіями.