LLM Benchmark - Claude 3 радует!. Модели Claude...
LLM Benchmark - Claude 3 радует!
Модели Claude 3 сильно улучшились на LLM бенчмарках. Похоже, что в Antropic стали прислушиваться к пожеланиям клиентов, которые используют LLM в реальных продуктах.
Opus скакнул вперед, перескочил через GPT-3.5 и оказался среди версий GPT-4. Больше всего радует сам факт рывка в правильном направлении.
Раньше 100 очков в работе с документами набирал только GPT-4 Turbo v4/0125-preview. А теперь и Claude 3 Opus. Это значит:
- системы, которые построены на работе с Knowledge Map, тут будут хорошо запускаться (бенчмарк тестирует это)
- бенчмарк придется усложнять, чтобы повысить планку))
Улучшение Sonnet не такое заметное на первый взгляд. Модель незначительно оторвалась от версий v1 и v2. Но при этом стоимость упала более, чем в два раза. Будет интересно посмотреть, что у них там с моделью Haiky.
Подробнее про бенчмарк можно прочитать по ссылкам тут. Дальше на очереди - Gemini Pro и обновление мультиязычности.
Ваш, @llm_under_hood 🤗
Модели Claude 3 сильно улучшились на LLM бенчмарках. Похоже, что в Antropic стали прислушиваться к пожеланиям клиентов, которые используют LLM в реальных продуктах.
Opus скакнул вперед, перескочил через GPT-3.5 и оказался среди версий GPT-4. Больше всего радует сам факт рывка в правильном направлении.
Раньше 100 очков в работе с документами набирал только GPT-4 Turbo v4/0125-preview. А теперь и Claude 3 Opus. Это значит:
- системы, которые построены на работе с Knowledge Map, тут будут хорошо запускаться (бенчмарк тестирует это)
- бенчмарк придется усложнять, чтобы повысить планку))
Улучшение Sonnet не такое заметное на первый взгляд. Модель незначительно оторвалась от версий v1 и v2. Но при этом стоимость упала более, чем в два раза. Будет интересно посмотреть, что у них там с моделью Haiky.
Подробнее про бенчмарк можно прочитать по ссылкам тут. Дальше на очереди - Gemini Pro и обновление мультиязычности.
Ваш, @llm_under_hood 🤗
Источник: LLM под капотом
2024-03-11 09:48:05