[Allen AI] OLMo: Accelerating the Science of Language...
[Allen AI] OLMo: Accelerating the Science of Language Models
Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi
Статья: https://arxiv.org/abs/2402.00838
Модели: https://huggingface.co/allenai/OLMo-7B
Код: https://github.com/allenai/OLMo
Датасет: https://huggingface.co/datasets/allenai/dolma
Evaluation: https://github.com/allenai/OLMo-Eval
Adaptation: https://github.com/allenai/open-instruct
W&B Logs: https://wandb.ai/ai2-llm/OLMo-7B/reports/OLMo-7B--Vmlldzo2NzQyMzk5
Allen AI (в основном) и представители четырех университетов анонсировали истинно открытую модель OLMo. Как они пишут “a state-of-the-art, truly Open Language Model”. Открыто, кажется, всё: кроме обычно опубликованных весов, иногда опубликованных кода для обучения и датасета, здесь открыт весь фреймворк, включая логи и скрипты оценки, всё под Apache 2.0 License. Есть и чекпойнты на HF. В первую очередь нацелены на исследователей языковых моделей.
До них похожую степень открытости демонстрировал консорциум BigScience с моделью BLOOM (https://bigscience.huggingface.co/blog/bloom), но их модели по размеру (176B) были не для простых смертных, да и по нынешним временам уже не в топе. Из более доступных были также Pythia (https://github.com/EleutherAI/pythia) и LLM360 (https://www.llm360.ai/blog/introducing-llm360-fully-transparent-open-source-llms.html).
OLMo это классический декодер трансформера (как GPT) с некоторыми улучшениями: no biases, non-parametric formulation of layer norm (без адаптивного линейного преобразования), SwiGLU, RoPE эмбеддинги, BPE-токенизатор (модифицированный GPT-NeoX-20B) со словарём в 50,280 с отдельными токенами для скрытия персданных (personal identifiable information, PII). Сравнение с недавней Gemma (https://t.me/gonzo_ML/2389) есть тут https://lightning.ai/lightning-ai/studios/understanding-using-and-finetuning-gemma.
В семействе три модели: 1B, 7B и 65B (ещё варится). Первые две обучены на 2T и 2.46T токенов. Это примерно те же числа, что у Llama 2 7B и Gemma 2B -- там 2T, больше чем у Phi-2 2.7B c 1.4T, но меньше Gemma 7B с 6T (https://huggingface.co/blog/gemma).
Датасет -- их же открытый Dolma (https://arxiv.org/abs/2402.00159) с 3T токенами и 5B документов. В той же работе, кстати, была и Olmo-1b обучена. Сейчас датасет в основном английский, но в будущем планируют расширить на другие языки. Как с этим можно жить, если надо не только английский, один из вариантов тут: https://inten.to/blog/when-genai-still-needs-mt/.
Предобученные модели файнтюнили для чата на Open Instruct (TÜLU, https://arxiv.org/abs/2311.10702). Для этого делали instruction fine-tuning + DPO на preferences.
Для оценки чекпойнтов модели использовали их же бенчмарк Paloma (Perplexity Analysis For Language Model Assessment, https://arxiv.org/abs/2312.10523) и фреймворк оценки Catwalk (https://arxiv.org/abs/2312.10253).
Обучали с PyTorch FSDP (https://pytorch.org/tutorials/intermediate/FSDP_tutorial.html) с mixed-precision training. Оптимизатор AdamW, обучалось одну эпоху на отобранных 2T токенах из 3T.
Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi
Статья: https://arxiv.org/abs/2402.00838
Модели: https://huggingface.co/allenai/OLMo-7B
Код: https://github.com/allenai/OLMo
Датасет: https://huggingface.co/datasets/allenai/dolma
Evaluation: https://github.com/allenai/OLMo-Eval
Adaptation: https://github.com/allenai/open-instruct
W&B Logs: https://wandb.ai/ai2-llm/OLMo-7B/reports/OLMo-7B--Vmlldzo2NzQyMzk5
Allen AI (в основном) и представители четырех университетов анонсировали истинно открытую модель OLMo. Как они пишут “a state-of-the-art, truly Open Language Model”. Открыто, кажется, всё: кроме обычно опубликованных весов, иногда опубликованных кода для обучения и датасета, здесь открыт весь фреймворк, включая логи и скрипты оценки, всё под Apache 2.0 License. Есть и чекпойнты на HF. В первую очередь нацелены на исследователей языковых моделей.
До них похожую степень открытости демонстрировал консорциум BigScience с моделью BLOOM (https://bigscience.huggingface.co/blog/bloom), но их модели по размеру (176B) были не для простых смертных, да и по нынешним временам уже не в топе. Из более доступных были также Pythia (https://github.com/EleutherAI/pythia) и LLM360 (https://www.llm360.ai/blog/introducing-llm360-fully-transparent-open-source-llms.html).
OLMo это классический декодер трансформера (как GPT) с некоторыми улучшениями: no biases, non-parametric formulation of layer norm (без адаптивного линейного преобразования), SwiGLU, RoPE эмбеддинги, BPE-токенизатор (модифицированный GPT-NeoX-20B) со словарём в 50,280 с отдельными токенами для скрытия персданных (personal identifiable information, PII). Сравнение с недавней Gemma (https://t.me/gonzo_ML/2389) есть тут https://lightning.ai/lightning-ai/studios/understanding-using-and-finetuning-gemma.
В семействе три модели: 1B, 7B и 65B (ещё варится). Первые две обучены на 2T и 2.46T токенов. Это примерно те же числа, что у Llama 2 7B и Gemma 2B -- там 2T, больше чем у Phi-2 2.7B c 1.4T, но меньше Gemma 7B с 6T (https://huggingface.co/blog/gemma).
Датасет -- их же открытый Dolma (https://arxiv.org/abs/2402.00159) с 3T токенами и 5B документов. В той же работе, кстати, была и Olmo-1b обучена. Сейчас датасет в основном английский, но в будущем планируют расширить на другие языки. Как с этим можно жить, если надо не только английский, один из вариантов тут: https://inten.to/blog/when-genai-still-needs-mt/.
Предобученные модели файнтюнили для чата на Open Instruct (TÜLU, https://arxiv.org/abs/2311.10702). Для этого делали instruction fine-tuning + DPO на preferences.
Для оценки чекпойнтов модели использовали их же бенчмарк Paloma (Perplexity Analysis For Language Model Assessment, https://arxiv.org/abs/2312.10523) и фреймворк оценки Catwalk (https://arxiv.org/abs/2312.10253).
Обучали с PyTorch FSDP (https://pytorch.org/tutorials/intermediate/FSDP_tutorial.html) с mixed-precision training. Оптимизатор AdamW, обучалось одну эпоху на отобранных 2T токенах из 3T.
Источник: gonzo-обзоры ML статей
2024-03-10 12:14:57