Метрики показывают, насколько же большой разрыв между опенсурсными...
Метрики показывают, насколько же большой разрыв между опенсурсными моделями (которые по Elo-рейтингу на LMSYS Arena почти-почти достают GPT-4) и приватными в контексте задач, требующих автономности и агентности, а не просто односложного ответа, выраженного текстом (прощающим мелкие огрехи). Смотрим на самую правую колонку: GPT-4 12.24% решенных задач, Mixtral 2.98... (и это — по тексту, без картинок)
(Gemini от Google в сделку не входила хахахаххаха)
(Gemini от Google в сделку не входила хахахаххаха)
Источник: Сиолошная
2024-04-14 20:57:39