Из прикольного, можно делать воображаемые роллауты из модели...

Из прикольного, можно делать воображаемые роллауты из модели мира. Это помогает интерпретировать, что выучила модель и видеть, что она генерит что-то осмысленное.

Если поставить текущую работу в более широкий и массовый контекст, то важно отдавать себе отчёт, что:

* Сравнивать Dynalang с существующими LLM не имеет смысла, потому что масштабы отличаются на порядки, вся Dynalang в зависимости от настроек содержит 150-300M параметров (далеко даже до самой лёгкой из LLaMa 2) плюс другая архитектура (в смысле не трансформер). То есть смотреть здесь на метрики качества, по которым сравниваются LLM, пока бессмысленно.

* По сравнению с Gato (https://t.me/gonzo_ML/966) или PaLM-e (https://t.me/gonzo_ML/1350), Dynalang также в другой категории. PaLM-e -- это всё же LLM, хоть и с мультимодальными входами, на выходе выдающая команды текстом. При этом она ещё и одна из самых больших в мире. А Gato -- хотя и побольше Dynalang в несколько раз, всё равно довольно маленькая (но наверняка DeepMind за это время уже обучил большую новую Gato 2 и молчит) мультизадачная модель, умеющая генерить токены разной природы, не только текстовые для чата или описания картинок, но и для действий. Обучаются эти модели без RL, и никакой явной модели мира с динамикой внутри себя не содержат (но, конечно, могут содержать что-то такое неявно).

Anyway, направление интересное, наверняка мы довольно скоро увидим модели типа Dreamer+LLM гораздо большего масштаба.

Источник: gonzo-обзоры ML статей

2023-08-16 21:40:58