Две недели назад
Две недели назад Figure.ai, разработчики гуманоидных роботов, объявили о партнёрстве с OpenAI. Цель понятна — уже год как понятно, что языковые модели уровня GPT-4 отлично пишут код, рассуждают, обрабатывают изображения, и это очень легко вписывается в парадигму роботов.
И вот появилось первое демо, как заявлено — end-2-end полностью на нейронках. Также боту добавили слух (спасибо Whisper) и возможность говорить. Причём, теми же голосами, что и в приложении ChatGPT. И даже с той же анимацией. Считайте, что это просто ходячий ЧатГопота, да, и поджопник может дать, и коленку прострелить (наверное).
Рекомендую со звуком послушать демо, но если вкратце:
— бот описывает сцену, что видит, и рассуждает, что может сделать и какие объекты как могут взаимодействовать
— может объяснять, почему какие-то действия сделаны. Не нужно уточнять, что яблоко — съедобное, достаточно просто попросить передать еду, он разберётся. Как вы понимаете, программисты за 50 лет все такие случаи не запрограммируют.
— вся сцена держится в памяти: в конце бот пересказал, что он сделал, и дал оценку действиям.
Кажется, +1 поколение железа для улучшения быстродействия, +1 поколение LLM-ок (хотя для многих задач и этого хватит), +1 поколение моделей синтеза речи — и, ну, эээээ мегасуперполезный робот готов. Какой-то планировщик бы ещё прикрутить, чтобы декомпозировать сложные цели на простые задачи (убери комнату -> осмотреть; перечислить объекты к уборке; найти для каждого целевое место), и просто чудо.
Вот бы ещё на его ходьбу посмотреть...
И вот появилось первое демо, как заявлено — end-2-end полностью на нейронках. Также боту добавили слух (спасибо Whisper) и возможность говорить. Причём, теми же голосами, что и в приложении ChatGPT. И даже с той же анимацией. Считайте, что это просто ходячий ЧатГопота, да, и поджопник может дать, и коленку прострелить (наверное).
Рекомендую со звуком послушать демо, но если вкратце:
— бот описывает сцену, что видит, и рассуждает, что может сделать и какие объекты как могут взаимодействовать
— может объяснять, почему какие-то действия сделаны. Не нужно уточнять, что яблоко — съедобное, достаточно просто попросить передать еду, он разберётся. Как вы понимаете, программисты за 50 лет все такие случаи не запрограммируют.
— вся сцена держится в памяти: в конце бот пересказал, что он сделал, и дал оценку действиям.
Кажется, +1 поколение железа для улучшения быстродействия, +1 поколение LLM-ок (хотя для многих задач и этого хватит), +1 поколение моделей синтеза речи — и, ну, эээээ мегасуперполезный робот готов. Какой-то планировщик бы ещё прикрутить, чтобы декомпозировать сложные цели на простые задачи (убери комнату -> осмотреть; перечислить объекты к уборке; найти для каждого целевое место), и просто чудо.
Вот бы ещё на его ходьбу посмотреть...
Источник: Сиолошная
2024-03-13 15:29:17