Вот такими получились оценки
Вот такими получились оценки. Здесь Score в процентах — это показатель, отражающий долю побед в сравнениях с ответами GPT-4-0314 (называется бейзлайн).
Видно, что как только выходим за пределы топ-5 — метрики сильно падают. На MTBench, да и многих других бенчмарках, такое не наблюдается.
Внимательный читатель спросит: «Пажжи, модель часто ответы самой себя (или своих сестёр) оценивает выше, чем ответы других моделей. Нет ли тут прикола?»
Отвечу ниже 👇
Видно, что как только выходим за пределы топ-5 — метрики сильно падают. На MTBench, да и многих других бенчмарках, такое не наблюдается.
Внимательный читатель спросит: «Пажжи, модель часто ответы самой себя (или своих сестёр) оценивает выше, чем ответы других моделей. Нет ли тут прикола?»
Отвечу ниже 👇
Источник: Сиолошная
2024-04-30 21:43:38