«The king is dead» —
«The king is dead» — пишут в новостях о свежем обновлении бенчмарка LMSYS (что это? объяснял тут). Впервые с момента релиза (почти ровно год) на первой строчке оказалась не модель от OpenAI.
Детище Anthropic, Claude 3 Opus, достигла рейтинга 1253+-5 (у GPT-4-Turbo 1251+-4). Как видите, хоть средняя оценка и выше, но модели буквально идут ноздря в ноздрю, и их доверительные интервалы существенно пересекаются. Если смотреть на статистику попарных встреч, то доля побед 50 на 50. А если сравнивать с оригинальной GPT-4 от марта 2023го, то тут Claude выигрывает 63/37.
Anthropic большие молодцы, ждём ответов от других компаний.
UPD: лол, и тут же новость о том, что Amazon инвестирует еще $2.75B по заключенному ранее соглашению о вложении $4B😎
Детище Anthropic, Claude 3 Opus, достигла рейтинга 1253+-5 (у GPT-4-Turbo 1251+-4). Как видите, хоть средняя оценка и выше, но модели буквально идут ноздря в ноздрю, и их доверительные интервалы существенно пересекаются. Если смотреть на статистику попарных встреч, то доля побед 50 на 50. А если сравнивать с оригинальной GPT-4 от марта 2023го, то тут Claude выигрывает 63/37.
Anthropic большие молодцы, ждём ответов от других компаний.
UPD: лол, и тут же новость о том, что Amazon инвестирует еще $2.75B по заключенному ранее соглашению о вложении $4B
Источник: Сиолошная
2024-03-27 17:51:03