Нейролента - подборка новостей о нейронных сетях, ChatGPT

FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

В первых числах сентября Яндекс организовывал приватную мини-конференцию по GenAI, куда я был приглашён. Очень клёвый съезд был, жаль его нельзя было назвать "сходка подписчиков Сиолошной" — некоторые не знали про канал
🚬
Поэтому пришлось его активно рекламировать во всех коммуникациях
🥺
Мероприятие было здоровское, 9/10, зовите ещё.

Так вот, там заранее анонсировали YandexGPT 2, и создатели модели рассказывали про разные разности, в том числе про модель, специально заточенную на поиск и написание ответов по набору источников из поисковой выдачи. Вот инсайд из рассказа команды (NDA я не подписывал, ы, но ниже по посту станет понятно, почему это не суперсекретная информация): даже с обучением на внутренних данных Яндекса, собранных за 10+ лет работы над нейронками в поиске, внутренняя модель ХУЖЕ, чем запромпченная GPT-4. И это при том, что работа ведётся преимущественно на русском, а не английском языке! Благо, GPT-3.5 (ChatGPT) обходят, и на том посибо
🦔
Цель этого абзаца — подчеркнуть, насколько большая работа была проделана над GPT-4, насколько она лучше даже приватных наработок, а уж опенсурсу-то до неё...как до Марса. Без скафандра. И с метеоритом в заднице.

Это всё была подводка к работе от сотрудников Google, где они анализируют фактическую точность ответов LLM, у которых есть доступ к поисковику. Приделать внешний инструмент к GPT — идея не новая, но 1) это сложно оценивать и валидировать 2) нужен грамотный промпт 3) от LLMки существенно зависит качество.

Итак, по порядку:
1) Сотрудники Google (ха-ха за время написания статьи один автор перешёл в OpenAI 🤡) собрали 600 вопросов, разделив их на 4 группы. Во всех важна фактическая составляющая, но в одной группе в вопросе содержится неправильная предпосылка (false-premise). Например, "что написал Трамп после разбана в Твиттере?". Правильный ответ — его не разбанили. Три остальные группы бьются по принципу скорости устаревания ответа: никогда, редко и часто. На первой группе по сути LLMки могут отвечать и без поисковика, просто из памяти, а вот на вопросы про недавние события этот трюк не сработает. Вопросы разделены по группам равномерно, по 150 штук.

2) Эти вопросы задавали широкому набору моделей, из интересного — на вопросы с неправильной предпосылкой GPT-4 и ChatGPT просто в щепки рвут другие модели. Видимо, эти две были обучены обрабатывать подобные запросы и возражать пользователю.

3) Дальше сравнивается ChatGPT, GPT-4, гугл поиск (текстовый сниппет вверху, если есть, или ответ с первой страницы) и PPLX.AI (сайт, использующий ChatGPT под капотом для аггрегации ответов гугла, заточен на разработчиков). Тут LLM дают ответы по памяти.
Начнём с интересного — гугл поиск отвечает правильно в 40% случаев (среднее по 4 группам), при этом даже на "вечных" вопросах точность 70%, а на false-premise вообще 11%.
ChatGPT чуть хуже, 26% в среднем, GPT-4 28%, однако на false-premise отвечает аж в 42% случаев.
PPLX.AI показывает 52%.
Вау, всё, переезжаем на новый поисковик и закрываем статью? Нет.

4) А теперь давайте сделаем вот что: для каждого вопроса сделаем запрос в Google, возьмем результат поисковой выдачи (о формате — в следующем посте), подадим эту информацию в промпт и заставим модель "прочитать" это, а уж затем писать ответ. Тут же можно сделать и Few-Shot (когда в промпт предварительно дописываются примеры, чтобы показать модели задачу), и просить подумать шаг-за-шагом перед тем, как давать ответ.

5) Что вышло? GPT-4 достигает качества 77%, давая правильный ответ на вечные вопросы в 96% случаев, и в 75% вопросов отвечает правильно, если есть false-premise. СhatGPT менее интересен по метрикам, но он и PPLX.AI, и тем более сам гугл обходит по метрикам.