Нейролента - подборка новостей о нейронных сетях, ChatGPT

More Agents Is All You Need. Junyou Li,...

More Agents Is All You Need
Junyou Li, Qin Zhang, Yangbin Yu, Qiang Fu, Deheng Ye
Статья: https://arxiv.org/abs/2402.05120
Код: https://anonymous.4open.science/r/more_agent_is_all_you_need/README.md

Задолбали уже названия статей про “X is all you need”, если честно. В этот раз команда из Tencent показала, что многократное сэмплирование из одной и той же модели с последующим голосованием улучшает качество результата с увеличением количества инстанцированных агентов.

Не то чтобы мы не знали такого про ансамблирование. Да и CoT-SC (Chain-of-Thought with Self-Consistency, https://t.me/gonzo_ML/1885) в целом это же и делал. Текущая работа проверяет, работает ли просто брут форс через добавление большого числа агентов. Спойлер: работает.

Авторы выделяют три подхода в похожих работах:

1) LLM Self-Ensemble типа того же CoT-SC, когда при генерации множества результатов для сборки финального ответа используется одна и та же LLM.
2) Гетерогенный ансамбль LLM делает то же самое, но с разными LLM. Сюда включаются даже дистилляции множеств LLM в одну.
3) Коллаборация множества LLM агентов в отличие от 2 подразумевает какую-то интеракцию между агентами.

Текущая работа явно попадает в первую категорию, но может быть применима и в других подходах.

Метод прост:
1. Генерим N сэмплов, опрашивая LLM столько же раз (в работе подразумевается с одним и тем же промптом, но кажется будет только лучше, если с разными)
2. Делаем мажоритарное голосование для выбора ответа. Для этого считается кумулятивная похожесть ответа на другие ответы (для open-ended генерации использовали BLEU, что как-то так себе; для close-ended считали частотность ответов). Ответ с максимальной cumulative similarity выбирается как финальный.

Проверили на разных задачах: Arithmetic Reasoning (GSM8K+MATH), General Reasoning (MMLU+Chess), Code Generation (HumanEval).

Используемые модели: Llama2-Chat 13B и 70B, GPT-3.5-Turbo, GPT-4.

Как бенчмарки используют: CoT, Zero-shot CoT, Solo Performance Prompting (SPP), LLM-Debate, Reflexion.

Каждый метод из бенчмарка также может быть улучшен добавлением такого вот ансамблирования.

В результате рост качества с ростом размера ансамбля. Самый заметный рост примерно до 10 участников, дальше он заметно слабее. Только на шахматных задачах с использованием Ламы не побили выбранные бенчмарки. Улучшения получаются довольно стабильно при разных значениях гиперпараметров. На более сложных датасетах и с более простыми LLM приносимая польза больше.

Отдельно и более глубоко поисследовали улучшения в зависимости от сложности задачи, числа шагов, и априорной вероятности правильного ответа (которая, так понимаю, равна вероятности случайного угадывания). Перформанс каждого шага может быть улучшен, так что подход можно распространить и на шаги. С увеличением априорной вероятности перформанс также растёт, так что авторы предлагают иерархическую процедуру, где задача с низкой вероятностью разбивается на несколько подзадач с более высокой вероятностью. Здесь ещё и разные модели для разных подзадач пробуют (для простых более дешёвую GPT-3.5, для сложных более дорогую GPT-4). Это всё работает.

Такие дела.