L_repr в свою очередь является суммой MSE лосса...

L_repr в свою очередь является суммой MSE лосса восстановления картинки, категориальных кроссэнтропийных лоссов для текста и награды, бинарного кроссэнтропийного лосса для c_t, и KL-регуляризации на оригинальный z_t и предсказанный.

L_pred это тоже KL-терм про соответствие распределений оригинального и предсказанного z_t, только в другом порядке и с разными позициями stop-gradient.

Благодаря decoupling’у WM и полиси, WM можно предобучать оффлайн на больших корпусах текстов и видео без действий. Для этого неиспользуемые части входов и выходов зануляются, и зануляются коэффициенты соответствующих лоссов. После чего можно файнтюнить модель уже на всех модальностях.

Важное отличие текущей модели от традиционных LLM в том, что эта модель не предсказывает напрямую следующий токен по предыдущему, а делает эти хитрее через предсказание репрезентации следующего шага.

Полиси обучается actor-critic алгоритмом (взят из DreamerV3) по воображаемой последовательности мультимодальных репрезентаций, не на реальных наблюдениях. Это тот самый подход, с которым Шмидхубер и Ха презентовали свою работу на NIPS 2018, когда модель прокручивает ситуации в своём воображении и учится на этом.

Модель делает симулированных ролауты длины 15, стартуя с состояний, взятых из replay buffer’а. Далее полиси выдаёт действия, а WM наблюдения.

Авторы проверяют четыре гипотезы:

H1) Агент может использовать язык за пределами инструкций для улучшения выполнения задач и без необходимости изучать мир методом проб и ошибок. Например, по языковым подсказкам или мануалам к игре.

H2) Более полезно заземлять язык на предсказание будущего, чем напрямую предсказывать действия.

H3) Интерпретация инструкций как предсказание будущих вознаграждений не хуже предсказания действий по инструкциям.

H4) Формулировка Dynalang позволяет выполнять языковую генерацию.

Тексты обрабатываются токенизатором от T5, и в зависимости от задачи, токены эмбеддятся либо через one-hot, либо берутся эмбеддинги от T5-small (60M).

В качестве бейзлайнов взяты model-free IMPALA и R2D2, имплементации взяты из Seed RL (https://github.com/google-research/seed_rl). Обе модели примерно с 10М параметров и скейлинг им не помогает.

Проверяли на разных средах.

Во-первых, создали свою HomeGrid -- gridworld, в котором агент получает текстовые описания задачи, а также языковые подсказки по ходу дела. Подсказки могут содержать информацию о динамике мира и его состоянии, а также корректировки агенту. Есть пять типов задач с разными объектами и корзинами. Со всеми ними можно делать разные действия.

Dynalang успешно использует подсказки разных типов, с ними выполнение задач даётся лучше, даже если подсказки физически далеко от релевантных объектов и наблюдений. В итоге нашли поддержку гипотез H1 и H2. Model-free бейзлайнам от новых хинтов становится только хуже.

Во-вторых, проверялись в среде Messenger (http://proceedings.mlr.press/v139/hanjie21a.html), в котором агент должен передавать сообщения от одних сущностей другим, избегая врагов. Имеются текстовые мануалы, описывающие динамику игры. В игре три уровня сложности, от S1 до S3. Дополнительно к предыдущим бейзлайнам, сравниваются с EMMA из этой же работы про среду.

Dynalang рулит, особенно на сложном S3, где остальным плохо. Это поддерживает гипотезу H2.

Третий бенчмарк Vision-Language Navigation (VLN), где агент должен навигировать по трёхмерным реалистичным панорамам домов, к которым прилагаются инструкции, как надо действовать.

По сравнению с R2D2 доля успешных прохождений сильно выше. Это поддерживает H3.

Четвёртая среда, LangRoom, сделана под задачу Embodied Question Answering и здесь агент должен отвечать текстом на вопросы про свойства объектов в среде. Это скорее PoC (proof-of-concept) и агент действительно учится собирать информацию в среде и генерировать правильные ответы. Это поддерживает H4.

Показали, что предобучение на текстовых данных (in-domain инструкции, а также общие тексты с историями, сгенерированными гптшками) улучшает результаты.

Источник: gonzo-обзоры ML статей

2023-08-16 21:40:58