Нейролента - подборка новостей о нейронных сетях, ChatGPT

Самое главное, что замерялось — это возможность выполнять нечто...

Самое главное, что замерялось — это возможность выполнять нечто новое, на чём модель не тренировалась. Можно делать это несколькими способами:
1) Unseen objects: сможет ли модель повторить выполнение какой-то задачи, если ей показать объекты, на которых именно часть дообучения робота не производилась? Единственный способ преуспеть — это перевести изображение с камеры в вектор, который языковая модель сможет "прочитать", понять, что он означает, связать слово и объект реального мира, и затем отдать команду робо-руке производить какие-то действия
2) Unseen background: сможет ли модель функционировать, если большая часть изображения будет для неё в новинку, так как полностью изменился фон места, где выполняется задача? (например, вместо одного стола - другой, да ещё и освещение подкрутили)
3) Unseen environments: то же самое, что выше, но при этом полностью меняется само место?

Для людей это всё звучит максимально тривиально и просто — конечно, если я умею поднимать банку со стола и кидать в мусорку в своей комнате — я смогу это сделать и на улице, ачом речь вообще? (кстати, иногда вижу людей в парках, которые последний навык не освоили 🥺). Но для машин это пока препятствие, которое необходимо преодолеть.

Как видно по графику, генерализация с учётом новых вводных у модели RT-2 лучше, чем у нескольких предшественников. В большей степени это достигается за счёт использования большой языковой модели, потому что она имеет много знаний из текстов, которые успела прочитать во время тренировки.

Единственное ограничение, с которым столкнулись авторы — модель не генерализуется на новые навыки. То есть нельзя попросить у робота, например, поднять объект за левую или правую часть — потому что такого никогда не показывали во время тренировки. Однако в языковых моделях вроде ChatGPT это побороли очень просто — собрали много данных с выполнением сотен разных задач, и модель научилась понимать "На лету", что от неё хотят, даже если такая задача не встречалась раньше.