В конце прошлой недели Mistral выложили торрент с...
В конце прошлой недели Mistral выложили торрент с весами для новой модели, а вот буквально час назад опубликовали блогпост с деталями и метриками.
В целом, эта та же модель, за одним очень важным исключением: микстура экспертов. Давайте на пальцах расскажу, что это такое.
Все современные языковыые модели состоят из блоков трансформера. Эти блоки имеют одинаковую архитектуру и «стакаются» друг над другом. Сначала работает первый блок, потом второй и так далее. В каждом блоке есть несколько компонент, один из которых — FeedFroward Layer. Это такая неглубокая, но большая (в ширину) под-нейронка, в которой (как предполагается) хранятся знания модели.
Чем больше эти слои, тем больше весит модель и тем дольше работает. Как бы это исправить? А давайте одну большую сеть распилим на несколько маленьких, и будем динамически (читай: по контексту) определять, с какой из них работать. По слухам, именно так делают в GPT-4: там есть 8 экспертов, и для каждого токена выбирается по 2. Ребята из Франции выбрали ровно такую же схему, поэтому модель называется Mixtral 8x7B.
В чём выигрыш? В том, что во время работы мы не используем все параметры сети, ненужное остаётся в сторонке. И несмотря на то, что в Mixtral формально 45B параметров (их нужно хранить в памяти), в одно и то же время задействуются лишь 12B. То есть время работы модели чуть меньше, чем у LLAMA-13B или любой другой такой, но при этом «банки знаний» существенно больше (см. на график).
Другие изменения:
— теперь говорит на французском, итальянском, немецком и испанском. Видно, что ребята целятся на EU рынок)
— 32 тысяч токенов контекст
— доучили модель на написание кода
— есть instruct-модель (то есть такая, которая умеет следовать вашим инструкциям). Благодаря этому (и экспертам) на бенчмарке MT-bench модель сравнялась с gpt-3.5. Скор 8.30 (из 10) — это лучший показатель среди всех открытых моделей.
В целом, эта та же модель, за одним очень важным исключением: микстура экспертов. Давайте на пальцах расскажу, что это такое.
Все современные языковыые модели состоят из блоков трансформера. Эти блоки имеют одинаковую архитектуру и «стакаются» друг над другом. Сначала работает первый блок, потом второй и так далее. В каждом блоке есть несколько компонент, один из которых — FeedFroward Layer. Это такая неглубокая, но большая (в ширину) под-нейронка, в которой (как предполагается) хранятся знания модели.
Чем больше эти слои, тем больше весит модель и тем дольше работает. Как бы это исправить? А давайте одну большую сеть распилим на несколько маленьких, и будем динамически (читай: по контексту) определять, с какой из них работать. По слухам, именно так делают в GPT-4: там есть 8 экспертов, и для каждого токена выбирается по 2. Ребята из Франции выбрали ровно такую же схему, поэтому модель называется Mixtral 8x7B.
В чём выигрыш? В том, что во время работы мы не используем все параметры сети, ненужное остаётся в сторонке. И несмотря на то, что в Mixtral формально 45B параметров (их нужно хранить в памяти), в одно и то же время задействуются лишь 12B. То есть время работы модели чуть меньше, чем у LLAMA-13B или любой другой такой, но при этом «банки знаний» существенно больше (см. на график).
Другие изменения:
— теперь говорит на французском, итальянском, немецком и испанском. Видно, что ребята целятся на EU рынок)
— 32 тысяч токенов контекст
— доучили модель на написание кода
— есть instruct-модель (то есть такая, которая умеет следовать вашим инструкциям). Благодаря этому (и экспертам) на бенчмарке MT-bench модель сравнялась с gpt-3.5. Скор 8.30 (из 10) — это лучший показатель среди всех открытых моделей.
Источник: Сиолошная
2023-12-11 08:43:17