Здесь три агента: капитан (LLM), контролирующий робота; наблюдатель...
Здесь три агента: капитан (LLM), контролирующий робота; наблюдатель (observer VLM), отвечающий на вопросы про картинки из наблюдений; первый помощник (first mate LLM), опрашивающий VLM и докладывающий капитану. Агенты на BLIP2 и GPT3.5-turbo.
Тестировали на одном из датасетов Habitat (кстати недавно вышла третья версия этого симулятора, https://ai.meta.com/blog/habitat-3-socially-intelligent-robots-siro/) с 3D интерьерами жилищ. NLSOM исследует среду лучше, чем равномерный рандом (не уверен, что нельзя было взять более мощный бейзлайн), осваивает бОльшую часть среды.
7) General Language-based Task Solving. Надо предложить решение для произвольной языковой задачи. Очень открытая постановка.
Использовали KAUST’овский же фреймворк CAMEL (https://arxiv.org/abs/2303.17760), сделали три агента (все на GPT3.5-turbo). Один агент специфицирует задачу на основе пользовательского промпта. Два других агента исполняют роли, заданные пользователем. Агенты могут коллаборировать и решать заданные задачи. Например, “Python Programmer” и “Game Developer” агенты вместе делают игру с костями.
Короче, прикольные результаты. Я думаю, будущее где-то здесь. На одних промптах, очевидно, далеко не уедешь, во многих сколь-нибудь серьёзных задачах уже нужна внешняя оркестрация и работа в парадигме LLM Programs. Здесь добавляется новое измерение, когда одного агента уже недостаточно, и задач с такой постановкой тоже может быть много. При желании это можно рассматривать как Chain-of-Thought (https://t.me/gonzo_ML/1885), но не в одной модели, а между разными. Или на это можно посмотреть как на ансамблирование, но с более богатыми коммуникационными протоколами. Как минимум в этой парадигме уже можно оформить любой кейс, где надо оценивать результат внутри процедуры, и критик вполне может быть одним из агентов. Это по идее классно ложится на акторную модель и языки типа Erlang/Elixir, было бы интересно, если бы на их базе появился какой-нибудь DSL или вообще аналог OTP (https://www.erlang.org/).
---
Дальше в работе начинается другая забористая тема.
Отдельный интересный вопрос -- credit assignment для отдельных модулей в NLSOM в парадигме Reinforcement Learning. И шире экономика агентов. Стандартный путь это policy gradients для LSTM, которая обучает участников NLSOM. Но у Шмидхубера есть и другие варианты, например, старый добрый локальный механизм Neural Bucket Brigade (NBB) (https://people.idsia.ch/~juergen/FKI-124-90ocr.pdf), где соревнующиеся нейроны платят "weight substance” активировавшим их нейронам. Кажется, этот метод является развитием ещё более старого Bucket Brigade (https://gwern.net/doc/reinforcement-learning/multi-agent/1985-holland.pdf) Джона Холланда, который очень много сделал для генетических алгоритмов (моя отдельная любовь).
Далее, если речь идёт про NLSOM, то и общаются они между собой на человеческом языке, а тогда и вознаграждения тоже можно сделать в человечески понятной форме --натурой деньгами.
И дальше просто пир духа!
Некоторые члены NLSOM могут взаимодействовать со средой, а среда платить им деньгами (USD). Допустим, некий член NLSOM, M вначале наделён некой суммой USD. Но он должен платить ренту, налоги, счета внутри NLSOM и другим релевантным игрокам в среде. Если M банкротится, то он исключается из NLSOM. Всё это можно обозвать Economy of Minds (EOM). M может платить другим членам NLSOM за услуги, тогда некий другой член N может принять оффер, оказать услугу M и получить от него оплату. А контракт между M и N должен пройти проверку на валидность и исполнимость, например, в соответствии с законами ЕС. Нужен некий legal authority, валидирующий такой контракт. Например, это может быть LLM, прошедшая legal bar exam. Она же в случае диспутов будет решать разногласия. А ещё богатые члены NLSOM могут заводить детей (как свои копии или как модификации) и передавать им часть своего благосостояния.
Тестировали на одном из датасетов Habitat (кстати недавно вышла третья версия этого симулятора, https://ai.meta.com/blog/habitat-3-socially-intelligent-robots-siro/) с 3D интерьерами жилищ. NLSOM исследует среду лучше, чем равномерный рандом (не уверен, что нельзя было взять более мощный бейзлайн), осваивает бОльшую часть среды.
7) General Language-based Task Solving. Надо предложить решение для произвольной языковой задачи. Очень открытая постановка.
Использовали KAUST’овский же фреймворк CAMEL (https://arxiv.org/abs/2303.17760), сделали три агента (все на GPT3.5-turbo). Один агент специфицирует задачу на основе пользовательского промпта. Два других агента исполняют роли, заданные пользователем. Агенты могут коллаборировать и решать заданные задачи. Например, “Python Programmer” и “Game Developer” агенты вместе делают игру с костями.
Короче, прикольные результаты. Я думаю, будущее где-то здесь. На одних промптах, очевидно, далеко не уедешь, во многих сколь-нибудь серьёзных задачах уже нужна внешняя оркестрация и работа в парадигме LLM Programs. Здесь добавляется новое измерение, когда одного агента уже недостаточно, и задач с такой постановкой тоже может быть много. При желании это можно рассматривать как Chain-of-Thought (https://t.me/gonzo_ML/1885), но не в одной модели, а между разными. Или на это можно посмотреть как на ансамблирование, но с более богатыми коммуникационными протоколами. Как минимум в этой парадигме уже можно оформить любой кейс, где надо оценивать результат внутри процедуры, и критик вполне может быть одним из агентов. Это по идее классно ложится на акторную модель и языки типа Erlang/Elixir, было бы интересно, если бы на их базе появился какой-нибудь DSL или вообще аналог OTP (https://www.erlang.org/).
---
Дальше в работе начинается другая забористая тема.
Отдельный интересный вопрос -- credit assignment для отдельных модулей в NLSOM в парадигме Reinforcement Learning. И шире экономика агентов. Стандартный путь это policy gradients для LSTM, которая обучает участников NLSOM. Но у Шмидхубера есть и другие варианты, например, старый добрый локальный механизм Neural Bucket Brigade (NBB) (https://people.idsia.ch/~juergen/FKI-124-90ocr.pdf), где соревнующиеся нейроны платят "weight substance” активировавшим их нейронам. Кажется, этот метод является развитием ещё более старого Bucket Brigade (https://gwern.net/doc/reinforcement-learning/multi-agent/1985-holland.pdf) Джона Холланда, который очень много сделал для генетических алгоритмов (моя отдельная любовь).
Далее, если речь идёт про NLSOM, то и общаются они между собой на человеческом языке, а тогда и вознаграждения тоже можно сделать в человечески понятной форме --
И дальше просто пир духа!
Некоторые члены NLSOM могут взаимодействовать со средой, а среда платить им деньгами (USD). Допустим, некий член NLSOM, M вначале наделён некой суммой USD. Но он должен платить ренту, налоги, счета внутри NLSOM и другим релевантным игрокам в среде. Если M банкротится, то он исключается из NLSOM. Всё это можно обозвать Economy of Minds (EOM). M может платить другим членам NLSOM за услуги, тогда некий другой член N может принять оффер, оказать услугу M и получить от него оплату. А контракт между M и N должен пройти проверку на валидность и исполнимость, например, в соответствии с законами ЕС. Нужен некий legal authority, валидирующий такой контракт. Например, это может быть LLM, прошедшая legal bar exam. Она же в случае диспутов будет решать разногласия. А ещё богатые члены NLSOM могут заводить детей (как свои копии или как модификации) и передавать им часть своего благосостояния.
Источник: gonzo-обзоры ML статей
2023-10-29 11:04:49