PizzaGAN - ІІ визначає набір інгредієнтів у піці за фотографією та вносить до нього корективи, додаючи або прибираючи будь-які топінги на запит

Дослідники Массачусетського технологічного інституту знайшли ще одне застосування для технологій розпізнавання зображень. Розроблена ними модель PizzaGAN визначає набір інгредієнтів у піці по фотографії і вносить до неї корективи, додаючи або прибираючи будь-які топінги за запитом. кінцевого результату. Для перших кроків для цієї мети піца — найкращий варіант: її приготування складається з простих, чітко розділених кроків; при цьому зовнішній вигляд страви суттєво змінюється на кожному етапі.

Для навчання використовувалося близько 10 000 фотографій піци з популярними топінгами - пепероні, шинка, гриби, оливки, зелень та інші. Зображення були анотовані: для кожного прописувався точний набір інгредієнтів. На основі цієї інформації модель навчилася розпізнавати візуальний ефект, що дає додавання того чи іншого продукту. Крім того, дослідники включили в набір вхідних даних зображення як сирої, так і випеченої піци, щоб продемонструвати різницю між цими двома станами.

Робота із завантаженим зображенням відбувається таким чином: спочатку дискримінатор розпізнає по фотографії поточний склад піци та фіксує всі інгредієнти. Набір «тісто, соус, сир» вважається базовим, всі інші добавки інтерпретуються як змінні, для яких можна задавати значення (1) або відсутності (0). Визначається також порядок розташування топпінгів, від нижніх до верхніх, та загальний стан - готова або непропечена. Потім у справу вступає система генераторів, що працюють із запитами на зміну списку інгредієнтів (припустимо, «Замінити пепероні на шинку», «Додати оливки» або «Показати цю піцу випеченою»). Кожен генератор відповідає одну операцію — додавання чи видалення конкретного продукту чи зміна стану. Модель порівнює склад, визначений дискримінатором, із заданими вимогами, знаходить розбіжності у списку топпінгів, розбиває процес коригування на послідовність операцій та активує потрібні генератори для редагування фотографії. Дослідники оцінюють згенеровані зображення як «дуже реалістичні».

Говорячи про розвиток проекту в майбутньому, автори зазначають, що модель, напевно, покаже хороші результати і з іншими типами їжі, де інгредієнти викладаються. шарами, наприклад, гамбургерами чи сендвічами. Практичне застосування PizzaGAN поки обмежене, проте фахівці зазначають, що подібні технології набирають популярності як інструмент контролю якості.

Інші новини

Найкраща ціна

JetBrains
JetBrains DataGrip

11 816.00 грн

JetBrains
JetBrains PyCharm

12 848.00 грн

JetBrains
JetBrains WebStorm

8 204.00 грн

Авторизація

Реєстрація

Нагадати пароль