Вот такими получились оценки

Вот такими получились оценки. Здесь Score в процентах — это показатель, отражающий долю побед в сравнениях с ответами GPT-4-0314 (называется бейзлайн).

Видно, что как только выходим за пределы топ-5 — метрики сильно падают. На MTBench, да и многих других бенчмарках, такое не наблюдается.

Внимательный читатель спросит: «Пажжи, модель часто ответы самой себя (или своих сестёр) оценивает выше, чем ответы других моделей. Нет ли тут прикола?»

Отвечу ниже 👇

Источник: Сиолошная

2024-04-30 21:43:38