NLSOM состоит из пяти агентов (предобученных сетей)
NLSOM состоит из пяти агентов (предобученных сетей). Двое (organizer, leader) построены на базе text-davinci-003, ещё трое -- картиночно-языковые модели (VLM, https://t.me/gonzo_ML/1364): BLIP2 (https://arxiv.org/abs/2301.12597), OFA (https://arxiv.org/abs/2202.03052), mPLUG (https://arxiv.org/abs/2205.12005).
Организатор получает вопрос и генерит другой вопрос (sub-question), все VLM на него отвечают и отправляют результат организатору, а тот на основе этих ответов генерит следующий под-вопрос. Этот пинг-понг продолжается заданное число ходов, затем лидер просит организатора суммаризировать историю общения. Наконец, лидер читает полученную саммари и выбирает ответ на оригинальный вопрос. Такая иерархическая структура может считаться монархической. Пробовали также и демократическую, где агенты видят ответы других и могут за них голосовать.
Монархический LNSOM побил другие индивидуальные модели в бенчмарке A-OKVQA, а также демократического коллегу (KAUST счастлив!). При увеличении VLM от 1 до 3 качество стабильно росло. Но возможно это из-за качества самих VLM, которые для понимания текста не очень.
2) Image Captioning. Сгенерить описание картинки, при этом со сложными примерами, требующими детального описания.
Тот же сетап, 2 LLM + 3 VLM с заменой промптов с VQA на captioning. Оценивались на датасете TARA, для сравнения взят BLIP2 и после десяти раундов mindstorm’а LNSOM лучше.
3) Prompt Generation for Text-to-Image Synthesis. Надо улучшить промпт для DALL-E 2, изначально заданный человеком.
В конфигурации работают 26 artists, 50 critics, и 1 collector. Каждый художник в свою очередь включает 3 LLM: a questioner, an answerer, and a leader. Все эти модели GPT3.5-turbo. Дополнительно есть модель painter (DALL-E 2). Каждый answerer промптом настроен на один конкретный (из 26) стиль рисования. Также им поступает общий запрос на рисование. Затем questioner за несколько раундов mindstorm’а получает уточнённые промпты для рисования. Каждый leader собирает всю эту коммуникацию и генерит более детальный промпт с конкретным стилем. Эти промпты оцениваются критиками. Для разнообразия мнений каждому критику заданы свои профессии (типа “You are a lawyer”). Критики голосуют за предложенные промпты. Collector агрегирует все голоса критиков, считает и продуцирует выигравший промпт, который и отправляется живописцу. Получилась иерархическая NSLOM, где на нижнем уровне Questioner-Answerer NLSOM для художников, а на верхнем Artist-Critic NLSOM. Итого 128 LLMs + 1 vision expert. Результаты прикольные.
4) 3D Generation. Надо сгенерить 3D модель из текстового описания.
В NLSOM входит 3D дизайнер (Luma AI’s Imagine3D), LLM leader (GPT3.5-turbo) и 3 критика (BLIP2). Дизайнер генерит начальную версию модели по запросу, критики получают 2D рендеры модели и пишут что про это думают, а лидер на основе этого фидбека модифицирует промпт.
Оценивают на наборе промптов, измеряя средний Clip score по нескольким view получившейся модели. Больших изменений после двух раундов взаимодействия не видно. Но даже этот примитивный mindstorm показывает неплохой результат.
5) Egocentric Retrieval. Парсинг видео от первого лица и поиск специально заданного сегмента видео (типа, в видео с поваром, готовившим спагетти, найти сегмент, где видно сколько сыпали соли).
В NLSOM пять агентов: четыре дебатёра и один редактор, все GPT3.5-turbo. Описание видео даётся извне человеком. Каждый дебатёр получает свой кусок сцены затем они обсуждают между собой как ответить на вопрос. Через несколько раундов обсужденийприходит лесник и всех разгоняет редактор и генерит саммари дискуссии, а из него и ответ на вопрос. Это тоже монархическая структура, в демократической дебатёры голосуют и выбирают сами.
Проверялись на части Ego4D датасета, получается намного лучше, чем с одним агентом (который не перебил рандомный бейзлайн). В этой конкретной задаче и конфигурации демократия рулила.
6) Embodied AI. Среди задач исследование роботом неизвестной среды и затем ответы на его основе (embodied question answering).
Организатор получает вопрос и генерит другой вопрос (sub-question), все VLM на него отвечают и отправляют результат организатору, а тот на основе этих ответов генерит следующий под-вопрос. Этот пинг-понг продолжается заданное число ходов, затем лидер просит организатора суммаризировать историю общения. Наконец, лидер читает полученную саммари и выбирает ответ на оригинальный вопрос. Такая иерархическая структура может считаться монархической. Пробовали также и демократическую, где агенты видят ответы других и могут за них голосовать.
Монархический LNSOM побил другие индивидуальные модели в бенчмарке A-OKVQA, а также демократического коллегу (KAUST счастлив!). При увеличении VLM от 1 до 3 качество стабильно росло. Но возможно это из-за качества самих VLM, которые для понимания текста не очень.
2) Image Captioning. Сгенерить описание картинки, при этом со сложными примерами, требующими детального описания.
Тот же сетап, 2 LLM + 3 VLM с заменой промптов с VQA на captioning. Оценивались на датасете TARA, для сравнения взят BLIP2 и после десяти раундов mindstorm’а LNSOM лучше.
3) Prompt Generation for Text-to-Image Synthesis. Надо улучшить промпт для DALL-E 2, изначально заданный человеком.
В конфигурации работают 26 artists, 50 critics, и 1 collector. Каждый художник в свою очередь включает 3 LLM: a questioner, an answerer, and a leader. Все эти модели GPT3.5-turbo. Дополнительно есть модель painter (DALL-E 2). Каждый answerer промптом настроен на один конкретный (из 26) стиль рисования. Также им поступает общий запрос на рисование. Затем questioner за несколько раундов mindstorm’а получает уточнённые промпты для рисования. Каждый leader собирает всю эту коммуникацию и генерит более детальный промпт с конкретным стилем. Эти промпты оцениваются критиками. Для разнообразия мнений каждому критику заданы свои профессии (типа “You are a lawyer”). Критики голосуют за предложенные промпты. Collector агрегирует все голоса критиков, считает и продуцирует выигравший промпт, который и отправляется живописцу. Получилась иерархическая NSLOM, где на нижнем уровне Questioner-Answerer NLSOM для художников, а на верхнем Artist-Critic NLSOM. Итого 128 LLMs + 1 vision expert. Результаты прикольные.
4) 3D Generation. Надо сгенерить 3D модель из текстового описания.
В NLSOM входит 3D дизайнер (Luma AI’s Imagine3D), LLM leader (GPT3.5-turbo) и 3 критика (BLIP2). Дизайнер генерит начальную версию модели по запросу, критики получают 2D рендеры модели и пишут что про это думают, а лидер на основе этого фидбека модифицирует промпт.
Оценивают на наборе промптов, измеряя средний Clip score по нескольким view получившейся модели. Больших изменений после двух раундов взаимодействия не видно. Но даже этот примитивный mindstorm показывает неплохой результат.
5) Egocentric Retrieval. Парсинг видео от первого лица и поиск специально заданного сегмента видео (типа, в видео с поваром, готовившим спагетти, найти сегмент, где видно сколько сыпали соли).
В NLSOM пять агентов: четыре дебатёра и один редактор, все GPT3.5-turbo. Описание видео даётся извне человеком. Каждый дебатёр получает свой кусок сцены затем они обсуждают между собой как ответить на вопрос. Через несколько раундов обсуждений
Проверялись на части Ego4D датасета, получается намного лучше, чем с одним агентом (который не перебил рандомный бейзлайн). В этой конкретной задаче и конфигурации демократия рулила.
6) Embodied AI. Среди задач исследование роботом неизвестной среды и затем ответы на его основе (embodied question answering).
Источник: gonzo-обзоры ML статей
2023-10-29 11:04:49