Mistral.ai, стартап, основанный автором LLaMa, разразился новой открытой моделью Mistral 7B
Про новый парижский стартап я писал длиннопост несколько месяцев назад (часть 1, часть 2)
О модели Mistral 7B:
- Обходит Llama-2 13B и Llama-1 34B на всех бенчмарках
- Подбирается к CodeLlama 7B на генерации кода, не забывая как выполнять задачи на Английском языке
- Apache 2.0 лицензия
Скорость достигается за счёт:
- Grouped-query attention (GQA) for faster inference
- Sliding Window Attention (SWA) для более дешёвого инференса на длинных последовательностях токенов
Больше деталей
Модель на Hugging Face
@ai_newz
Про новый парижский стартап я писал длиннопост несколько месяцев назад (часть 1, часть 2)
О модели Mistral 7B:
- Обходит Llama-2 13B и Llama-1 34B на всех бенчмарках
- Подбирается к CodeLlama 7B на генерации кода, не забывая как выполнять задачи на Английском языке
- Apache 2.0 лицензия
Скорость достигается за счёт:
- Grouped-query attention (GQA) for faster inference
- Sliding Window Attention (SWA) для более дешёвого инференса на длинных последовательностях токенов
Больше деталей
Модель на Hugging Face
@ai_newz
Источник: эйай ньюз
2023-09-27 16:31:47