Интересное:. — модель Трансформера имеет всего 1
Интересное:
— модель Трансформера имеет всего 1.6m параметров. Сейчас на телефонах запускают нейронки в сотни раз больше (даже в тысячи, но там скорости работы не хватит для робота).
— размахивание руками, которое вы видите на видео, робот выучил сам. Ему показалось, что так будет удобнее, никто это не программировал, и это никак не поощрялось во время обучения.
— более того, движения синхронизированы с ногами, что очень схоже с тем, как ходят люди. Только модель ни разу не видела людей, и никаких байесов в симуляции (кроме естественных физических) в эту сторону тоже нет.
— робот отлично справляется с неожиданными ситуациями, которые существенно отличаются от тренировочных. Выдержать удар мяча, палки, и даже пройтись с пакетом в руке — не проблема. Опять же, «вау»-эффект относительно Boston Dynamics в том, что это всё выучивается очень маленькой моделью очень быстро, и этого даже не было в симуляции. Как вы понимаете, это легко масштабировать без вливания человеческих ресурсов.
— да, даже переступания через ступеньку НЕ БЫЛО в тренировке.
— конечно, робот ходит не только вперед, но и назад, умеет поворачивать.
— в симуляции случайным образом меняли параметры вроде гравитации, задержки сигнала до моторов, массу и десяток других. В теории, это делает модель робастной: она сможет также работать и на Луне, и с неполадками, и вообще умничка.
— модель: Трансформер, метод обучения: PPO. Да, точно такие же, как у ChatGPT👁 только входы-выходы разные, и поощряемое действие. Круто? Да это же круто!
Сейчас очевидное ограничение — это написание функции награды для агента, чтобы закреплять желаемое поведение. То есть не получится просто кинуть больше GPU и ожидать появления Терминатора. Но мы ждём...да?
— модель Трансформера имеет всего 1.6m параметров. Сейчас на телефонах запускают нейронки в сотни раз больше (даже в тысячи, но там скорости работы не хватит для робота).
— размахивание руками, которое вы видите на видео, робот выучил сам. Ему показалось, что так будет удобнее, никто это не программировал, и это никак не поощрялось во время обучения.
— более того, движения синхронизированы с ногами, что очень схоже с тем, как ходят люди. Только модель ни разу не видела людей, и никаких байесов в симуляции (кроме естественных физических) в эту сторону тоже нет.
— робот отлично справляется с неожиданными ситуациями, которые существенно отличаются от тренировочных. Выдержать удар мяча, палки, и даже пройтись с пакетом в руке — не проблема. Опять же, «вау»-эффект относительно Boston Dynamics в том, что это всё выучивается очень маленькой моделью очень быстро, и этого даже не было в симуляции. Как вы понимаете, это легко масштабировать без вливания человеческих ресурсов.
— да, даже переступания через ступеньку НЕ БЫЛО в тренировке.
— конечно, робот ходит не только вперед, но и назад, умеет поворачивать.
— в симуляции случайным образом меняли параметры вроде гравитации, задержки сигнала до моторов, массу и десяток других. В теории, это делает модель робастной: она сможет также работать и на Луне, и с неполадками, и вообще умничка.
— модель: Трансформер, метод обучения: PPO. Да, точно такие же, как у ChatGPT
Сейчас очевидное ограничение — это написание функции награды для агента, чтобы закреплять желаемое поведение. То есть не получится просто кинуть больше GPU и ожидать появления Терминатора. Но мы ждём...да?
Источник: Сиолошная
2023-12-11 06:42:17