Метрики показывают, насколько же большой разрыв между опенсурсными...

Метрики показывают, насколько же большой разрыв между опенсурсными моделями (которые по Elo-рейтингу на LMSYS Arena почти-почти достают GPT-4) и приватными в контексте задач, требующих автономности и агентности, а не просто односложного ответа, выраженного текстом (прощающим мелкие огрехи). Смотрим на самую правую колонку: GPT-4 12.24% решенных задач, Mixtral 2.98... (и это — по тексту, без картинок)

(Gemini от Google в сделку не входила хахахаххаха)

Источник: Сиолошная

2024-04-14 20:57:39