PatronusAI и HuggingFace опубликовали LLM Enterprise Scenarios Leaderboard....
PatronusAI и HuggingFace опубликовали LLM Enterprise Scenarios Leaderboard
Это закрытый бенчмарк, который оценивает LLM модели на реальных задачах из корпоративного сектора:
- Finance Bench
- Legal Confidentiality
- Writing
- Customer Support
- Toxic Prompts
- Enterprise PII
Это выгодно отличает его от академических бенчмарков для LLM вроде MMLU, ARC и HellaSwag. Последние интересны, но достаточно бесполезны на практике. Так всегда бывает.
Почему бенчмарк закрытый? Чтобы команды не подгоняли свои модели под тесты.
Моделей у них пока не очень много, т.к. это достаточно непростая задача разрабатывать и вести такой бенчмарк. Они будут добавлять туда модели постепенно.
Почитать: Hugging Face Blog post | Leaderboard
А пока ждем - можно еще глянуть на Trustbit LLM Enterprise Leaderboard за январь. Мы ведем этот бенчмарк с июля прошлого года, и моделей там побольше 😉
Ваш, @llm_under_hood 🤗
PS: Спасибо Айгизу за наводку.
Это закрытый бенчмарк, который оценивает LLM модели на реальных задачах из корпоративного сектора:
- Finance Bench
- Legal Confidentiality
- Writing
- Customer Support
- Toxic Prompts
- Enterprise PII
Это выгодно отличает его от академических бенчмарков для LLM вроде MMLU, ARC и HellaSwag. Последние интересны, но достаточно бесполезны на практике. Так всегда бывает.
Почему бенчмарк закрытый? Чтобы команды не подгоняли свои модели под тесты.
Моделей у них пока не очень много, т.к. это достаточно непростая задача разрабатывать и вести такой бенчмарк. Они будут добавлять туда модели постепенно.
Почитать: Hugging Face Blog post | Leaderboard
А пока ждем - можно еще глянуть на Trustbit LLM Enterprise Leaderboard за январь. Мы ведем этот бенчмарк с июля прошлого года, и моделей там побольше 😉
Ваш, @llm_under_hood 🤗
PS: Спасибо Айгизу за наводку.
Источник: LLM под капотом
2024-02-03 08:10:46