Нейролента - подборка новостей о нейронных сетях, ChatGPT

В

В прошлой серии постов про оценку LLMок я писал, что для масштабируемости и дешевизны их начали сравнивать через GPT-4. То есть одна модель оценивает два разных ответа на один и тот же вопрос, выбирает лучший, и это позволяет строить рейтинг. Однако у метода есть существенные недостатки (как раз про них и можно почитать выше).

Авторы рейтинга lmsys.org, которые и предложили несколько месяцев назад этот метод, теперь отказываются от него в пользу нового способа оценки. А так как за это время они собрали десятки тысяч реальных человеческих ответов о предпочтении одного ответа над другим, то смогли заодно и более точно понять его плюсы и минусы.

В общем, новый метод всё еще базируется на GPT-4 (да-да, модель оценивает модели..) — для возможности автоматизации и масштабируемости. Он доступен всем за пару десятков баксов, если не дешевле. В качестве датасета используется отобранный набор из 80 вопросов, равномерно разделенных по 8 группам (их можно глянуть на картинке ниже). Более того, для каждого вопроса есть второй вопрос-уточнение, который можно оценивать отдельно. Такой сценарий более близок к способу общения людей с ИИ-ассистентами.

Для того, чтобы оценка через GPT-4 вышла более честной, попытались адресовать следующие проблемы:
— Смещение оценки из-за позиции. Например, LLM отдают предпочтение первому ответу при попарном сравнении
— Предрасположенность к многословности, когда LLM предпочитает более длинные ответам, независимо от их качества
— Предвзятость к самоутверждению, при которой LLM могут отдавать предпочтение своим собственным ответам (или моделям, на них обученным)
— Ограниченная способность к рассуждению, связанная с возможными недостатками LLM в оценке математических и логических вопросов

После внедрения некоторых из этих решений авторы обнаружили, что, несмотря на ограничения, мощные LLM, такие как GPT-4, могут хорошо согласовываться как с человеческими предпочтениями, достигая согласия более 80%. То есть результат оценки моделью в 80% случаев совпадает с тем, к чему приходит группа людей при разметке. Может показаться, что 4/5 это маловато, однако! Этот уровень согласия сравним с соглашением между двумя разными людьми-оценщиками. Про это еще писали сами OpenAI, что даже два со-автора одной статьи, тесно работающих друг с другом, достигают согласия в 82-86% случаев.

Следовательно, при осторожном использовании LLM может хорошо приближать оценки людей. Это ни в коем случае не стоит воспринимать как "идеальный способ", но это явно лучше того, что использовалось раньше. Теперь авторы нацелены на сбор 1000 вопросов (вместо 80) и дальнейшее улучшение промптов, чтобы делать оценки GPT-4 менее смещенными.

Кроме того, учитываются еще две более эээээ объективные оценки:
— на основе голосования реальными людьми (называется Arena, мол, модели сражаются друг с другом), выраженное в ELO-очках (как в шахматах)
— на основе предсказаний на бенчмарке MMLU (про них писал в статье про GPT-4)

Чуть более простыми словами и немного иначе про результаты — можно почитать у Kali Novskaya тут: https://t.me/rybolos_channel/742