+38/050/370-3627
+38/093/220-0872
+38/044/257-2444
Новини

Google Brain Team представила технологію масштабування зображень на базі дифузійних моделей

Google Brain Team представила технологію масштабування зображень на основі дифузійних моделей

Google Brain Team продемонструвала технології масштабування зображень на основі дифузійних моделей.

Представлені два пов'язаних алгоритму, які генерують фотографії високої чіткості без втрати якості.

Перший з них називається SR3 (збільшення масштабу шляхом повторного доопрацювання). На вхід подається картинка з низькою роздільною здатністю, і нейронна мережа намагається збільшити її за рахунок додавання шуму.

Модель вивчає методи спотворення зображення, а потім повертає назад весь процес, поступово видаляючи шуми для досягнення заявленого результату.

Інженери з'ясували, що SR3 перевершує існуючі генеративні алгоритми, такі як ПУЛЬС і FSRGAN, особливо при роботі з портретами і фотографіями природи.

Компанія не зупинилася на досягнутому і розробила ще одну дифузійну модель під назвою CDM. На цей раз нейронна мережа пройшла навчання мільйонам зображень з високою роздільною здатністю з бази даних ImageNet.

Алгоритм використовує каскадний підхід і збільшує фотографії в два етапи: з роздільною здатністю 32×32 -> 64×64 -> 256×256 (8 разів), або з 64×64 -> 256×256 -> 1024×1024 (16 разів).

Компанія Google опублікувала приклади роботи алгоритмів

SR3: Супер-роздільна здатність зображення
SR3 - це дифузійна модель з надроздільною здатністю, яка приймає в якості входу зображення з низькою роздільною здатністю, і будує відповідне зображення з високою роздільною здатністю з чистого шуму. Модель навчається процесу пошкодження зображення, в якому шум поступово додається до зображення з високою роздільною здатністю, поки не залишиться лише чистий шум. Потім він вчиться змінювати цей процес, починаючи з чистого шуму і поступово видаляючи шум, щоб досягти цільового розподілу за допомогою керівництва вхідним зображенням з низькою роздільною здатністю

CDM: класно-умовне покоління ImageNet
Показавши ефективність SR3 у виконанні супер-роздільної здатності природного зображення, ми йдемо ще далі і використовуємо ці моделі SR3 для класно-умовної генерації зображень. CDM - це класно-умовна дифузійна модель, навчена на даних ImageNet для генерації природних зображень з високою роздільною здатністю. Оскільки ImageNet є складним набором даних з високою ентропією, ми побудували CDM як каскад з декількох дифузійних моделей. Цей каскадний підхід передбачає об'єднання декількох генеративних моделей за кількома просторовими дозволами: одна дифузійна модель, яка генерує дані з низькою роздільною здатністю, за якою слідує послідовність моделей дифузії надроздільної здатності SR3, які поступово збільшують роздільну здатність створюваного зображення до найвищої роздільної здатності. Загальновідомо, що каскадування покращує якість і швидкість навчання для даних з високою роздільною здатністю, як показали попередні дослідження (наприклад, в авторегресійних моделях і VQ-VAE-2) і в одночасній роботі для дифузійних моделей. Як продемонстровано нашими кількісними результатами нижче, CDM додатково підкреслює ефективність каскадування в дифузійних моделях для якості вибірки та корисності в низхідних завданнях, таких як класифікація зображень.

Інші новини