Нейросеть навчилася відтворювати послідовність дій для досягнення мети після перегляду навчального відео
Нейросеть навчилася відтворювати послідовність дій для досягнення мети після перегляду навчального відео
Дослідники з Stanford навчили нейросеть, яка після перегляду навчального відео відтворює послідовність дій для досягнення мети.
Реальний світ містить у собі широкий набір ймовірностей дій. Більшість традиційних підходів до планування не враховують ці ймовірності. Дослідники пропонують представити характеристики середовища в латентному просторі, щоб вивчити модель зіставляти поточний стан середовища та дію, яку необхідно зробити.
Модель для створення латентного простору та зіставлення характеристик середовища та дій ділиться на 2 компоненти:
- Перехідна модель (transition model), яка передбачає наступний стан на підставі поточного стану та дії;
- Conjugate constraint модель зіставляє поточні дії з раніше досконалими діями — в основі лежить RNN
Нейросеть бере відео та вивчає переходи між станами за допомогою двох основних компонентів. На виході виході генерується послідовність дій, що зі стану А призведе до стану Б.
Дослідники експериментують із двома підходами до планування, які спираються на властивості дій, отримані з нейромережі.
Перший підхід порівняє поточний стан середовища та цільове в латентному просторі. У той же час алгоритм зіставляє можливі дії з досконалими та семплює з різних дій, щоб дійти до цільового стану.
Другий підхід дослідники називають “walkthrough planning”. Ідея в тому, що алгоритм видає візуальні відмінності між поточним та цільовим станами середовища. Це не прямий підхід до виконання завдання і не видає послідовність дій, але може служити як сигнал про нагороду в іншій моделі.
Для дослідження було використано датасет із навчальними відео CrossTask. Датасет складається із відеозаписами розв'язання 83 завдань. Серед прикладів завдань — смаження млинців, заміна колеса.
Дослідники порівняли нейромережу з кількома базовими рішеннями:
- Випадково вибирати дії з рівномірного розподілу;
- Universal Planning Networks (UPN) — найбільш схожа модель з попередніх робіт
Окрім цього, дослідники перевірили, що внесок кожного з компонентів нейромережі в точність передбачень. Метрики для оцінки були — Success rate, Accuracy та mIoU.
Точність моделі не перевищила 50%. Незважаючи на те, що по метриками модель обходить конкуруючі підходи, не можна говорити про коректність порівнянь.
Завдання відновлення послідовності дій – це комплексне завдання. Звичніше до вирішення подібного завдання підходити не через RNN, а через алгоритми навчання з підкріпленням.