Microsoft продолжает линейку моделей Phi (
Microsoft продолжает линейку моделей Phi (Phi-2, Phi-1.5, Phi-1). Теперь вышла Phi-3.
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
Статья: https://arxiv.org/abs/2404.14219
Пост: https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential
Модели: https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3
Обучено три модели: phi-3-mini (3.8B, на 3.3T токенов), phi-3-small (7B) и phi-3-medium (14B, обе на 4.8T токенов). Модель mini совместима по структуре блоков и токенизатору с Llama 2 (наверное и с Llama 3). Модель small использует токенизатор tiktoken и чередование dense и blocksparse внимания.
Mini (3.8B) может быть запущена на телефоне, после квантизации в 4 бита она весит примерно 1.8GB, на iPhone 14 выдаёт 12 токенов в секунду. При этом по части академических бенчмарков она сравнима с GPT-3.5 (1106 версия), Gemma 7b, Llama-3-In 8b, Mixtral 8x7b.
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
Статья: https://arxiv.org/abs/2404.14219
Пост: https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential
Модели: https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3
Обучено три модели: phi-3-mini (3.8B, на 3.3T токенов), phi-3-small (7B) и phi-3-medium (14B, обе на 4.8T токенов). Модель mini совместима по структуре блоков и токенизатору с Llama 2 (наверное и с Llama 3). Модель small использует токенизатор tiktoken и чередование dense и blocksparse внимания.
Mini (3.8B) может быть запущена на телефоне, после квантизации в 4 бита она весит примерно 1.8GB, на iPhone 14 выдаёт 12 токенов в секунду. При этом по части академических бенчмарков она сравнима с GPT-3.5 (1106 версия), Gemma 7b, Llama-3-In 8b, Mixtral 8x7b.
Источник: gonzo-обзоры ML статей
2024-04-23 07:20:53