+38/044/257-2444
+38/067/502-3306
+38/050/370-3627
Новости

Нейросеть научилась воссоздавать трехмерные сцены по фотографиям

Нейросеть научилась воссоздавать трехмерные сцены по фотографиям

Разработчики из DeepMind представили алгоритм Generative Query Network (GQN) на нейросетях, который исследует двумерную сцену и определяет, как она будет выглядеть в трехмерном пространстве.

GQN состоит из генеративной и репрезентативной сетей. Репрезентативная нейросеть кодирует информацию о полученных двумерных изображениях и представляет ее в виде вектора. Затем генеративная сеть предсказывает, как будет выглядеть окружение с новой точки наблюдения, и создает трехмерный рендер.

Репрезентативная сеть не знает конечных ракурсов, поэтому для точного результата достоверно описывает расположение предметов, их цвет и размеры, источники освещения и другие детали.

Если нейросеть видит один и тот же объект много раз, то запоминает его характеристики и использует при последующих взаимодействиях. По словам разработчиков, ИИ способен воспроизвести лабиринт, просканировав несколько сделанных изнутри фотографий.

Тесты в виртуальном трехмерном мире показали, что GQN создает качественные изображения без знаний о законах перспективы или освещения. Также система классифицирует частично скрытые объекты и считает их количество.

Разработчики обучали нейросети только на искусственно созданных данных, однако в перспективе они намерены использовать реальные сцены.

В мае 2018 года исследователи из Google представили алгоритм Stereo Magnification, который из двух снятых с близких ракурсов кадров воссоздает новые снимки с других ракурсов. В отличие от GQN, он не создает изображения с принципиально другого угла обзора, но работает с реальными фотографиями.

 

 

Другие новости