Mindstorms in Natural Language-Based Societies of Mind. Mingchen...
Mindstorms in Natural Language-Based Societies of Mind
Mingchen Zhuge, Haozhe Liu, Francesco Faccio, Dylan R. Ashley, Róbert Csordás, Anand Gopalakrishnan, Abdullah Hamdi, Hasan Abed Al Kader Hammoud, Vincent Herrmann, Kazuki Irie, Louis Kirsch, Bing Li, Guohao Li, Shuming Liu, Jinjie Mai, Piotr Piękos, Aditya Ramesh, Imanol Schlag, Weimin Shi, Aleksandar Stanić, Wenyi Wang, Yuhui Wang, Mengmeng Xu, Deng-Ping Fan, Bernard Ghanem, Jürgen Schmidhuber
Статья: https://arxiv.org/abs/2305.17066
Сегодня воскресный лонгрид. Для тех, кто любит позабористее! И Шмидхубера.
Работа отсылает к “society of mind” (SOM, не путать с Self-organizing Maps) Марвина Минского (https://www.youtube.com/watch?v=-pb3z2w9gDg), модели разума, составленного из множества взаимодействующих агентов.
Эта работа в чём-то близка к другой недавней клёвой работе про Generative agents (https://t.me/gonzo_ML/1481), которая мне очень нравится.
В нейросетевом мире многое при желании можно трактовать как SOM (Шмидхубер трактует как SOM даже RNN’ки), потому что есть множество сетей, собранных из других сетей, те же GAN’ы, например. Но эти, назовём их, “старые SOM” имеют жёсткие фиксированные интерфейсы заточенные под задачу. С прошлой десятилетки идёт движение к большей гибкости интерфейсов, у Шмидхубера была тема про рекуррентные модели мира и learning to think (https://arxiv.org/abs/1511.09249) и ОДНУ БОЛЬШУЮ СЕТЬ (https://arxiv.org/abs/1802.08864). В этой менее жёсткой коммуникации сеть могла опрашивать другие сети через векторные интерфейсы. В развитии это ведёт к мультимодальным нейросообществам, состоящим из множества интервьюирующих друг друга сетей.
Для решения задачи различные модули SOM могут общаться между собой и вести так называемый “мозговой штурм” (mindstorm) со множеством раундов коммуникации. Авторы были вдохновлены успехом различных форм коммуникации в человеческих обществах типа мозгового штурма, который brainstorm. А с расцветом LLM’ок, можно собрать SOM с отдельными модулями в виде предобученных LLM и символьным интерфейсом между ними, то есть с общением между собой на естественном языке вместо обмена тензорами. Такие SOM называются natural-language SOMs (NLSOMs).
У языкового интерфейса есть определённые преимущества:
* модульность и расширяемость: модули можно заменять на другие, или добавлять новые, не меняя интерфейс между ними
* объяснимость: человек может лучше понять, о чём “думает” SOM. К тому же в NLSOM можно включать и людей (а с нейролинком, наверное, и в любой SOM).
* Human-Biased AI: благодаря bias’ам встроенным в язык, вероятно, будет тенденция к более человеческому мышлению и рассуждениям.
Работа открывает большую поляну на будущее: какие формы организации сообществ более эффективны для решения определённых задач. В каком случае лучше нейромонархия с NN KingAbdullah, а где лучше нейродемократия? Как агенты могут образовывать группы с общей экспертизой и интересами? Как нейроэкономика (не та, что обычно зовётся этим словом), где сети платят друг другу за сервисы, может использоваться в RL с NLSOM? Ждём следующих работ на эти темы.
NLSOM задаётся комбинацией агентов (каждый со своей objective) и оргструктурой, которая определяет как агенты взаимодействуют и коллаборируют. Агенты могут воспринимать, обрабатывать и пересылать уни- и мульти-модальную информацию. Агенты могут воспринимать разные типы информации, кто текст, кто звук, кто картинки. Некоторые агенты даже могут быть физически embodied и действовать в реальном мире. Это всё можно считать развитием парадигмы LLM Programs (https://t.me/gonzo_ML/1584), её следующим этапом, LLM Programs 2.0 или Multi-agent Programs.
Фреймворк NLSOM приложили к набору разных задач.
1) Visual Question Answering. Есть картинка, надо ответить на набор текстовых вопросов по ней (multiple choice).
Mingchen Zhuge, Haozhe Liu, Francesco Faccio, Dylan R. Ashley, Róbert Csordás, Anand Gopalakrishnan, Abdullah Hamdi, Hasan Abed Al Kader Hammoud, Vincent Herrmann, Kazuki Irie, Louis Kirsch, Bing Li, Guohao Li, Shuming Liu, Jinjie Mai, Piotr Piękos, Aditya Ramesh, Imanol Schlag, Weimin Shi, Aleksandar Stanić, Wenyi Wang, Yuhui Wang, Mengmeng Xu, Deng-Ping Fan, Bernard Ghanem, Jürgen Schmidhuber
Статья: https://arxiv.org/abs/2305.17066
Сегодня воскресный лонгрид. Для тех, кто любит позабористее! И Шмидхубера.
Работа отсылает к “society of mind” (SOM, не путать с Self-organizing Maps) Марвина Минского (https://www.youtube.com/watch?v=-pb3z2w9gDg), модели разума, составленного из множества взаимодействующих агентов.
Эта работа в чём-то близка к другой недавней клёвой работе про Generative agents (https://t.me/gonzo_ML/1481), которая мне очень нравится.
В нейросетевом мире многое при желании можно трактовать как SOM (Шмидхубер трактует как SOM даже RNN’ки), потому что есть множество сетей, собранных из других сетей, те же GAN’ы, например. Но эти, назовём их, “старые SOM” имеют жёсткие фиксированные интерфейсы заточенные под задачу. С прошлой десятилетки идёт движение к большей гибкости интерфейсов, у Шмидхубера была тема про рекуррентные модели мира и learning to think (https://arxiv.org/abs/1511.09249) и ОДНУ БОЛЬШУЮ СЕТЬ (https://arxiv.org/abs/1802.08864). В этой менее жёсткой коммуникации сеть могла опрашивать другие сети через векторные интерфейсы. В развитии это ведёт к мультимодальным нейросообществам, состоящим из множества интервьюирующих друг друга сетей.
Для решения задачи различные модули SOM могут общаться между собой и вести так называемый “мозговой штурм” (mindstorm) со множеством раундов коммуникации. Авторы были вдохновлены успехом различных форм коммуникации в человеческих обществах типа мозгового штурма, который brainstorm. А с расцветом LLM’ок, можно собрать SOM с отдельными модулями в виде предобученных LLM и символьным интерфейсом между ними, то есть с общением между собой на естественном языке вместо обмена тензорами. Такие SOM называются natural-language SOMs (NLSOMs).
У языкового интерфейса есть определённые преимущества:
* модульность и расширяемость: модули можно заменять на другие, или добавлять новые, не меняя интерфейс между ними
* объяснимость: человек может лучше понять, о чём “думает” SOM. К тому же в NLSOM можно включать и людей (а с нейролинком, наверное, и в любой SOM).
* Human-Biased AI: благодаря bias’ам встроенным в язык, вероятно, будет тенденция к более человеческому мышлению и рассуждениям.
Работа открывает большую поляну на будущее: какие формы организации сообществ более эффективны для решения определённых задач. В каком случае лучше нейромонархия с NN King
NLSOM задаётся комбинацией агентов (каждый со своей objective) и оргструктурой, которая определяет как агенты взаимодействуют и коллаборируют. Агенты могут воспринимать, обрабатывать и пересылать уни- и мульти-модальную информацию. Агенты могут воспринимать разные типы информации, кто текст, кто звук, кто картинки. Некоторые агенты даже могут быть физически embodied и действовать в реальном мире. Это всё можно считать развитием парадигмы LLM Programs (https://t.me/gonzo_ML/1584), её следующим этапом, LLM Programs 2.0 или Multi-agent Programs.
Фреймворк NLSOM приложили к набору разных задач.
1) Visual Question Answering. Есть картинка, надо ответить на набор текстовых вопросов по ней (multiple choice).
Источник: gonzo-обзоры ML статей
2023-10-29 11:04:49