А теперь — к интересному, как на новой...

А теперь — к интересному, как на новой выборке ведут себя свежие модели.

TLDR:
— модели OpenAI не переобучены, у них оценка что на старом, что на новом наборе задач совпадает
— это же применимо к моделям Anthropic, они на новой выборке даже чуть лучше себя проявляют
— модели Mistral (включая Mixtral) и Phi (это которые обучаются на синтетике, сгенерированной GPT-шкой) - очень переобучены, и для них деградация метрик составляет около 8-10%. То есть на оригинальной выборке от OpenAI они, скажем, показывали 80%, а тут 70%
— свежая LLAMA 3 на 8B деградирует на 6%, однако старший брат 70B просаживается всего на 2%. Возможно, бОльшая модель генерализуется, и хоть и даёт ответы чуть-чуть лучше на старой выборке, на новой всё равно показывает сильный результат.
— при этом вот LLAMA 2 на 7B и 70B почти не отличаются, то есть для них такого эффекта не наблюдается
— модели Gemini переобучены совсем чуть-чуть, в целом всё честно.

TLTLDR от самих авторов:


Gemini, GPT, and Claude show little to no signs of overfitting

И это важно, так как многие начали оверфититься на бенчмарки, и может казаться, что да, вот, мы уже догнали OpenAI! (😀 расскажете)

Источник: Сиолошная

2024-05-02 12:25:12