Нейролента - подборка новостей о нейронных сетях, ChatGPT

Leeroo Orchestrator: Elevating LLMs Performance Through Model Integration

Короткий обзор простой статьи с хорошей идеей: давайте предположим, что разные LLM хороши в разных задачах и доменах. Тогда для оптимизации качества по отношению к затратам логично сделать оркестратор, который для каждого нового запроса выбирает, на какую LLM перенапрвалять запрос. Условно за математику и физику отвечает дорогая, но мощная GPT-4, а вот переписать имейл простыми словами сможет и маленькая LLAMA.

Чтобы выявить лучшую стратегию оркестрации, вопросы из тренировочного пула случайным образом рассылаются в одну или несколько LLM, затем оценивается соотношение цена/качество.

Авторы собирают несколько открытых моделек (и иногда досыпают GPT-4 в микс) и получают:
— Наш оркестратор обеспечивает качество на уровне модели Mixtral, тратя при этом лишь две трети ее стоимости
— Увеличение допустимого бюджета позволяет превзойти Mixtral более чем на 5% при том же уровне затрат
— Дальнейшие улучшения наблюдались при интеграции GPT-4 в базовый пул моделей. Оркестратор Leeroo получает такое же качество, как GPT-4 в одиночку, но при вдвое меньшей стоимости ... и даже превосходит результаты GPT-4 со снижением затрат на 25%

Мне работа не понравилась двумя вещами:
1) тестирование только на бенчмарке MMLU (57 тем, тысячи вопросов с выбором ответа из 4 вариантов), что а) не очень репрезентативно б) не раскрывает потенциал подхода (или скрытые камни с задачками посложнее)
2) из-за этого в качестве оркестровщика выступает буквально эвристическая модель (которая по табличке "модель <-> качество в домене" оценивает, куда послать запрос), а не LLM'ка или классификатор, с анализом предсказаний на новых доменах.

Круто было бы увидеть сервис, который собирает информацию о миллионах разных запросов и очень точно понимает, куда перекидывать запрос для улучшения качества и снижения цены. Однако маловероятно, что такому третьему лицу будут доверять компании (ведь по сути все запросы будут использованы для тренировки). Поэтому только открытая библиотека. А так лозунг «дадим то же качество на четверть дешевле» — крутой.

Статью увидел у @dealerAI
Код будет тут, но пока пусто