Нейролента - подборка новостей о нейронных сетях, ChatGPT

Детали обучения: архитектуры, размеры датасета, гиперпараметры, время обучения...

Детали обучения: архитектуры, размеры датасета, гиперпараметры, время обучения -- ничего неизвестно. Вероятно какое-то развитие мультимодального трансформера из работы Imitating Interactive Intelligence (https://arxiv.org/abs/2012.05672) с заменой LSTM на Transformer-XL?.

Оценивать полученного агента непросто. Критерий успеха зачастую недоступен, особенно в коммерческих играх, и вообще они не созданы для воспроизводимых бенчмарков. Или агент может выполнить действие не благодаря текстовой инструкции, а потому что среда так устроена -- в идеале задача должна позволять множество действий. Где-то надо использовать OCR для считывания сообщений игры. И так далее, сложностей много.

Ещё есть важная тема с latency. Поскольку агент и мир асинхронные, надо это учитывать и при обучении (предсказывать действия со смещением во времени), и не создавать дополнительных тормозов при оценке.

В итоге оценивали 1) относительно ground truth (для исследовательских сред, где это можно получить), 2) через детектирование успеха средствами OCR, или 3) человеком (медленно и дорого).

Результаты интересны.

Во-первых, у SIMA получается достигать целей в различных средах. Не со 100% результатом, но вполне сносно. Какие-то среды легче других. Также кластеризовали по типам действий, здесь тоже перформанс довольно сильно разнится.

Провели абляции. В дополнение к стандартной SIMA, был также режим zero-shot с обучением на одну меньше среду и оценке на ней. Был вариант без предобученных энкодеров (ResNet вместо SPARC/Phenaki), вариант без языковых входов, и вариант с обучением только на эту конкретную среду (агент-специалист). Почти все агенты обучались 1.2М шагов.

Специалист побит везде, это круто. Другие бейзлайны тоже заметно побиты. Zero-shot отстаёт сильно, но тем не менее у него тоже достойный результат, недалеко от специалиста. Без CFG хуже, но без языка ещё сильно хуже.

Было ещё отдельное сравнение на других задачах из No Man’s Sky. У людей на этих задачах успешность примерно 60%, у SIMA 34%, что заметно выше бейзлайнов.

В общем есть ещё над чем работать, но результат интересный и многообещающий. Явно есть и перенос знаний между средами, и zero-shot вполне достойный.

SIMA -- это всё ещё work in progress, результаты пока предварительные. В будущем обещают отскейлить на большее число сред и задач, улучшить стабильность и контролируемость агентов, заюзать свежие крутые предобученные модели, и ещё поработать над evaluations. SIMA должна быть интересной моделью для исследования grounding абстрактных способностей языковых моделей в embodied environments. Ждём развития.

P.S. Поддержать проект можно тут patreon.com/GonzoML