Нейролента - подборка новостей о нейронных сетях, ChatGPT

Databricks (это CTO которой подписан на меня

Databricks (это CTO которой подписан на меня 😉) выпустили в открытый доступ с почти открытой лицензией* модель DBRX.

DBRX — модель с архитектурой «микстура экспертов» (как у Grok-1 от X.AI, и как у Mixtral) на 132B параметров, 36B из которых (половина LLAMA-2-70B) используется для обработки каждого токена. То есть с одно стороны модель работает шустрее (потому что часть весов не используется), а с другой весит очень много (потому что даже неиспользуемое в моменте надо хранить).

Интересно, что вместо обычных 8 экспертов с выбором двух за раз используется другая схема: 4 из 16. Это якобы даёт в 65 раз больше комбинаций и улучшает качество. Но это мелочи, главное — модель обучена на 12 триллионах токенов. Это очень много — примерно столько, по слухам, было у GPT-4 (но та и больше). Интересно, что используют токенизацию от OpenAI — я всё ждал, когда это произойдет. По идее, на языках, отличных от английского, должен существенно вырасти перформанс, а также скорость работы (потому что каждое слово не будет распадаться на отдельные буквы). А ещё модель хорошо кодит.

Лицензия — как бы открытая, но если у вас больше 700M MAU, то нужно спрашивать разрешение у DataBricks.
Обещают скоро прикрутить инференс к TensorRT-LLM и vLLM.

Глобально по метрикам чуть лучше куда более мелких аналогов, и пока есть ощущение, что модель пропадёт и затеряется. Она скорее служит демкой платформы компании и заявкой, мол, мы вот так можем.

...но если по какой-то причине вам интересно, то:
Тех. блог
Блог про оптимизации обучения (признались, что тренировали с FP8, шо круто, даёт ускорение и не приводит к нестабильности)
Instruct-модель (если вдруг кто решит запускать)
Base-модель

====

Демка, чтобы поиграться: тут