RecurrentGemma: Moving Past Transformers for Efficient Open Language...
RecurrentGemma: Moving Past Transformers for Efficient Open Language Models
DeepMind: Griffin, RLHF, Gemma Teams
Статья: https://arxiv.org/abs/2404.07839
Модель: https://ai.google.dev/gemma/docs/recurrentgemma
Репа: https://github.com/google-deepmind/recurrentgemma
И сразу вдогонку про рекуррентную Gemma, построенную на архитектуре Griffin.
DeepMind только что выпустил обновление для классической Gemma — версию 1.1 (https://t.me/gonzo_ML/2498), а теперь есть ещё и RecurrentGemma, пока только 2B. Выложена обычная предобученная модель и instruction tuned версия.
Основное преимуществе Griffin здесь — это внутреннее состояние фиксированного размера, нет нужды растить KV кеш с ростом длины последовательности. Отличия RecurrentGemma от Грифона минимальны -- входные эмбеддинги скейлятся на константу равную корню из ширины модели.
Обучали на последовательностях длины 8192 токенов. Те же данные, что и у Gemma-2B (то есть в основном английский, математика и код). Обучалась на 2T токенов -- это круче, чем в работе про Griffin (там было 300B), но меньше, чем у Gemma-2B (там 3T). Также был аналогичный Gemma instruction fine-tuning плюс заявлен новый RLHF.
Результат в целом сравнимый с Gemma-2B, хоть та и обучалась на 1.5x токенов. На человеческой оценке с Mistral 7B v0.2 Instruct, RecurrentGemma-2B-IT лишь чуть хуже Gemma-1.1-2B-IT.
Поскольку внутреннее состояние модели фиксированного размера и нет необходимости держать KV кеш, модель может генерить последовательности любой длины, обычная Gemma была ограничена памятью хоста. Также можно обрабатывать более крупные батчи.
Throughput чисто на авторегрессионную генерацию, без учёта обработки промпта, выше в разы, особенно на длинной генерации, типа 8к токенов. Получается порядка 6k токенов в секунду на TPUv5e и оно не падает с ростом длины.
Процессинг промпта не сильно быстрее обычной Gemma, потому что и та делает это впараллель. Но всё равно быстрее. На TPUv5e это порядка 40k токенов в секунду.
Это прям интересная альтернатива для on-device моделей.
DeepMind: Griffin, RLHF, Gemma Teams
Статья: https://arxiv.org/abs/2404.07839
Модель: https://ai.google.dev/gemma/docs/recurrentgemma
Репа: https://github.com/google-deepmind/recurrentgemma
И сразу вдогонку про рекуррентную Gemma, построенную на архитектуре Griffin.
DeepMind только что выпустил обновление для классической Gemma — версию 1.1 (https://t.me/gonzo_ML/2498), а теперь есть ещё и RecurrentGemma, пока только 2B. Выложена обычная предобученная модель и instruction tuned версия.
Основное преимуществе Griffin здесь — это внутреннее состояние фиксированного размера, нет нужды растить KV кеш с ростом длины последовательности. Отличия RecurrentGemma от Грифона минимальны -- входные эмбеддинги скейлятся на константу равную корню из ширины модели.
Обучали на последовательностях длины 8192 токенов. Те же данные, что и у Gemma-2B (то есть в основном английский, математика и код). Обучалась на 2T токенов -- это круче, чем в работе про Griffin (там было 300B), но меньше, чем у Gemma-2B (там 3T). Также был аналогичный Gemma instruction fine-tuning плюс заявлен новый RLHF.
Результат в целом сравнимый с Gemma-2B, хоть та и обучалась на 1.5x токенов. На человеческой оценке с Mistral 7B v0.2 Instruct, RecurrentGemma-2B-IT лишь чуть хуже Gemma-1.1-2B-IT.
Поскольку внутреннее состояние модели фиксированного размера и нет необходимости держать KV кеш, модель может генерить последовательности любой длины, обычная Gemma была ограничена памятью хоста. Также можно обрабатывать более крупные батчи.
Throughput чисто на авторегрессионную генерацию, без учёта обработки промпта, выше в разы, особенно на длинной генерации, типа 8к токенов. Получается порядка 6k токенов в секунду на TPUv5e и оно не падает с ростом длины.
Процессинг промпта не сильно быстрее обычной Gemma, потому что и та делает это впараллель. Но всё равно быстрее. На TPUv5e это порядка 40k токенов в секунду.
Это прям интересная альтернатива для on-device моделей.
Источник: gonzo-обзоры ML статей
2024-04-15 08:58:21