Исследователи задаются тем же вопросом — вот что произойдёт,...

Исследователи задаются тем же вопросом — вот что произойдёт, когда модель-судья, производящая оценку, будет не из стана OpenAI? Давайте попробуем с Claude 3 Opus, она ж вон тоже очень крутая!

В таком случае Agreement падает с 89.1% до 66.7%, что существенно. Separability просаживается мало, до 83.7%.

Но главный прикол — это что по мнению Opus'а свежая GPT-4-Turbo всё равно остаётся лучшей моделью, хоть и со слегка меньшей оценкой. Перед вами табличка, первая колонка — это отражение оценок с прошлого поста, вторая — доля побед, когда судит Opus, а третья — разница между ними.

Видно, что модель Anthropic хоть и пытается подыгрывать своим, сильно повышая им оценку (ожидаемо) — этого не хватает, чтобы перебить чемпиона

😎

Ну а так как версия бенчмарка 0.1, то, во первых, ждём расширения набора запросов, и, во вторых, его постоянное обновление, с доливкой свежих вопросов. И может ещё промпты немного улучшат, метрики подрастут.

===

Посмотреть все ответы и промпты можно тут. А здесь лежит код для того, чтобы самому тестировать модели (~25$ за запуск на кредиты OpenAI API)

Источник: Сиолошная

2024-04-30 21:50:32