1️⃣MIRACL (Multilingual Information Retrieval Across a Continuum of Languages) - бенчмарк с текстами на 18 разных языках, включая русский. Используется для измерения качества поиска по многоязычному корпусу.
Тут мы видим заметное улучшение у text-embeding-3-large - 54.9 (против 31.4 у `ada v2`). Что тут сейчас актульная SOTA я хз - подскажте в комментах, если знаете.
2️⃣MTEB (Massive Text Embedding Benchmark) - крупнейший бенчмарк дял текстовых эмбеддингов. Есть публичнй лидерборд (см. скрин). a. SOTA сейчас считается модель voyage-lite-02-instruct от Voyage AI (доступна через API) со скором 67.13. b. на втором месте - E5-mistral-7b-instruct (в опен соурсе), выбивает скор 66.63. с. text-embeding-3-large от OpenAI же выдает скромные 64.6, что соответствует 4-му месту на лидерборде. Кажется, OpenAI потихоньку теряет свои лидерские позиции как SOTA API всего, что связано с текстом.