Chatbot Arena: Альтман наносит ответный удар. Пару недель...
Chatbot Arena: Альтман наносит ответный удар
Пару недель назад Claude 3 Opus сместил GPT-4 с вершины пищевой цепочки по общему рейтингу, но тут подоспели результаты новой GPT-4 Turbo 2024-04-09 в чатбот арене. Новая модель OpenAI смогла победить Opus, который продержался на первом месте чуть меньше трёх недель. Claude 3 Opus всё ещё лучше в отдельных задачах: понимании длинного контекста и китайском языке.
А ещё появились результаты DBRX, всё плохо: модель оказалась на 26 месте и отстаёт от Mixtral, у которого в два раза меньше параметров.
Под конец приведу цитату классика: "Сейчас я доверяю только двум бенчмаркам LLM: Chatbot Arena и разделу комментариев r/LocalLlama."
@ai_newz
Пару недель назад Claude 3 Opus сместил GPT-4 с вершины пищевой цепочки по общему рейтингу, но тут подоспели результаты новой GPT-4 Turbo 2024-04-09 в чатбот арене. Новая модель OpenAI смогла победить Opus, который продержался на первом месте чуть меньше трёх недель. Claude 3 Opus всё ещё лучше в отдельных задачах: понимании длинного контекста и китайском языке.
А ещё появились результаты DBRX, всё плохо: модель оказалась на 26 месте и отстаёт от Mixtral, у которого в два раза меньше параметров.
Под конец приведу цитату классика: "Сейчас я доверяю только двум бенчмаркам LLM: Chatbot Arena и разделу комментариев r/LocalLlama."
@ai_newz
Источник: эйай ньюз
2024-04-15 10:02:36