RT-2: Vision-Language-Action Models. Transfer Web Knowledge to Robotic Control

Работа Google Deepmind, посвященная изучению того, как vision-language модели, обученные на огромном множестве картинок и текстов, могут использоваться для end-2-end управления робототехникой. В частности, хотелось проверить, что достигаются генерализация/обобщение, а также появляются разные фишки от больших языковых моделей (вроде reasoning, то есть рассуждения и планирования).

Идея очень проста и вытекает как следствие из природы языковых моделей. Когда мы говорим про LLM, то очень важно помнить, что они могут производить любую последовательность, которая может кодировать что угодно: от привычного нам языка и кода на Python и до команд роботам. Главное, чтобы был способ переводить текст в эти команды. Например, можно научить модель понимать, что если она генерирует строчку «1 128 91 241 5 101 127 217», то на самом деле это означает следующее:
1) задача продолжает решаться (первая цифра, единичка, говорит о том, что завершать работу не нужно)
2) дальше тройка цифр 128-91-241 задаёт относительное и нормализованное смещение по трём координатам нашего трёхмерного мира
3) последние три — 101-127-217 — указывают на степень поворота рабочей части "руки" робота

Получается, что в таком формате робот может получать команды для изменения своего состояния по 6 степеням свободы. В теории, если натренировать модель на некотором наборе траекторий, которые показывают "ну если хочешь сделать вот это, то нужно двигать руку-захват вот так", то трансформер может начать генерировать внятные действия — точно так же, как языковые модели обучаются на тексте из Интернета для изучения общих идей и концепций, RT-2 передает знания из веб-данных, чтобы давать роботу инструкцию к действиям.

Работает ли это? Смотрите в видео

😮

Источник: Сиолошная

2023-07-29 15:29:35