Нейролента - подборка новостей о нейронных сетях, ChatGPT

До сих пор роботы работали на комбинациях сложных...

До сих пор роботы работали на комбинациях сложных систем, где высокоуровневые системы рассуждений и низкоуровневые системы манипулирования играли в "глухой телефончик". Вот представьте, что вы думаете о том, что хотите сделать, а затем должны сообщить об этих действиях остальному телу, чтобы заставить его двигаться. Представленная модель RT-2 устраняет эту сложность и позволяет одной языковой модели не только выполнять сложные рассуждения, но и напрямую отдавать команды роботу. Самое главное, это показывает, что с небольшим объемом данных для обучения роботов система способна на выполнение задач, на которых она никогда не была обучена.

Например, если бы вы хотели, чтобы предыдущие системы могли выбрасывать мусор, вам пришлось бы явно обучить их, чтобы они могли идентифицировать мусор, а также поднимать его и затем выбрасывать. А RT-2 уже имеет представление о том, что такое мусор, и может идентифицировать его без специального обучения, да еще и имеет представление о том, как именно выбрасывать мусор, хотя её никогда не обучали этому действию. Даже первый вопрос "а что такое мусор" очень нетривиален для полноценной формализации. Вот подумайте об абстрактной природе мусора — то, что было пакетом чипсов или банановой кожурой, становится мусором после того, как вы их съедите, а до этого мусором не является. И ничего из этого не нужно объяснять текстом или отдельно тренировать — RT-2 может понять это из своих внутренних представлений и выполнить свою работу.

Почему это важно и чего будет дальше:
1) важно понимать, что языковые модели - универсальные reasoners (мыслители? размышляторы?), и за счёт генерализации и переноса знаний из одной области в другую могут легко находиться разные применения
2) исследователи не брали самые большие и умные модели для своей задачи, так как хотели, чтобы все модели работали меньше чем за секунду (то есть частота действий робота не менее 1 Герц). Условно, если добавить GPT-4 и более мощную картиночную модель, то результаты будут куда более впечатляющими
3) данных пока маловато, но от этой точки и до полноценного датасета, включающего в себя данные от работы на производственной линии завода до горничной — один, может, два года (неэкспертная оценка, поправьте меня в комментариях, если разбираетесь). А с данными приходит и существенное улучшение
4) модель училась по одной технике, а есть куча других, которые, как я вижу, в скором времени начнут смешиваться друг с другом и давать улучшения ещё больше. Например, можно обучать роботов на видео, где люди что-то делают. И даже записывать новое не надо — в ТикТоке и на ютубе можно найти почти что угодно!

Статья: тут
Сайт с верхнеуровневым описанием и демо-видео: клик
Более подробный и технический блогпост Deepmind: здесь