+38/050/370-3627
+38/093/220-0872
+38/044/257-2444
Новини

Нейросеть навчилася відтворювати послідовність дій для досягнення мети після перегляду навчального відео

Нейросеть навчилася відтворювати послідовність дій для досягнення мети після перегляду навчального відео

Дослідники з Stanford навчили нейросеть, яка після перегляду навчального відео відтворює послідовність дій для досягнення мети.

Реальний світ містить у собі широкий набір ймовірностей дій. Більшість традиційних підходів до планування не враховують ці ймовірності. Дослідники пропонують представити характеристики середовища в латентному просторі, щоб вивчити модель зіставляти поточний стан середовища та дію, яку необхідно зробити.

Модель для створення латентного простору та зіставлення характеристик середовища та дій ділиться на 2 компоненти:

  • Перехідна модель (transition model), яка передбачає наступний стан на підставі поточного стану та дії;
  • Conjugate constraint модель зіставляє поточні дії з раніше досконалими діями — в основі лежить RNN

Нейросеть бере відео та вивчає переходи між станами за допомогою двох основних компонентів. На виході виході генерується послідовність дій, що зі стану А призведе до стану Б.

Дослідники експериментують із двома підходами до планування, які спираються на властивості дій, отримані з нейромережі.

Перший підхід порівняє поточний стан середовища та цільове в латентному просторі. У той же час алгоритм зіставляє можливі дії з досконалими та семплює з різних дій, щоб дійти до цільового стану.

Другий підхід дослідники називають “walkthrough planning”. Ідея в тому, що алгоритм видає візуальні відмінності між поточним та цільовим станами середовища. Це не прямий підхід до виконання завдання і не видає послідовність дій, але може служити як сигнал про нагороду в іншій моделі.

Для дослідження було використано датасет із навчальними відео CrossTask. Датасет складається із відеозаписами розв'язання 83 завдань. Серед прикладів завдань — смаження млинців, заміна колеса.

Дослідники порівняли нейромережу з кількома базовими рішеннями:

  • Випадково вибирати дії з рівномірного розподілу;
  • Universal Planning Networks (UPN) — найбільш схожа модель з попередніх робіт

Окрім цього, дослідники перевірили, що внесок кожного з компонентів нейромережі в точність передбачень. Метрики для оцінки були — Success rate, Accuracy та mIoU.

Точність моделі не перевищила 50%. Незважаючи на те, що по метриками модель обходить конкуруючі підходи, не можна говорити про коректність порівнянь.

Завдання відновлення послідовності дій – це комплексне завдання. Звичніше до вирішення подібного завдання підходити не через RNN, а через алгоритми навчання з підкріпленням.

Інші новини