Textbooks Are All You Need II: phi-1
Textbooks Are All You Need II: phi-1.5 technical report
Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar, Yin Tat Lee
Статья: https://arxiv.org/abs/2309.05463
Модель: https://huggingface.co/microsoft/phi-1_5
Продолжение работы “Textbooks Are All You Need” (https://arxiv.org/abs/2306.11644) про маленькую да удаленькую модель phi-1, которая при размере в 1.3B параметров и при обучении в течение всего 4 дней на 8 A100 (что чуть больше $3k по ценам Амазона, и наверное даже дешевле в случае H100), демонстрирует весьма достойные результаты в генерации кода на Питоне.
До этого ещё была аналогичная работа TinyStories (https://arxiv.org/abs/2305.07759) не про код, а про английский язык и SLM (small language models) размеров типа 10M (не B!) параметров.
В этих работах вкладывались в качественные датасеты, включая части сгенерированные GPT-шками.
В текущей работе продолжают линию phi-1, фокусируясь на common sense reasoning и обучают новую 1.3B модель phi-1.5 с весьма достойным перформансом, превосходящим в разы более тяжёлые модели типа Llama 2-7B или Vicuna-13B. Эту обучали на 32 A100 8 дней.
Архитектура phi-1 и phi-1.5 идентична, трансформер с 24 слоями, 32 головами каждая размерности 64. Используются rotary embedding, длина контекста 2048. При обучении использовался Flash attention.
В обучающем датасете 7B токенов из датасета для phi-1, и примерно 20B новых синтетических “textbook-like” data для обучения модели common sense reasoning. Для создания датасета тщательно отобраны 20К тем для генерации, в промптах для генерации использовались для разнообразия сэмплы из веба. Не-синтетическая часть датасета -- это всего 6B токенов отфильтрованного кода из датасета для phi-1.
Авторы упирают на то, что создание датасета -- очень важный процесс, требующий итераций, стратегического выбора тем, и глубокого понимания пробелов в знаниях чтобы обеспечить качество и разнообразие данных. И по мнению авторов, создание синтетических датасетов станет в ближайшем будущем важным техническим навыком и центральной темой ИИ исследований.
Во время обучения используется 150B токенов, 80% из нового синтетического датасета, а 20% из датасета от phi-1.
Также обучили ещё две модели phi-1.5-web-only и phi-1.5-web. Для них используется 95B токенов фильтрованных данных из веба, 88B из датасета от Falcon, и 7B из The Stack и StackOverflow. Модель phi-1.5-web-only обучается только на датасете веба (80%) + код (20%), без всякой синтетики, а phi-1.5-web на миксе из всего: 40% веб, 20% код, 40% новая синтетика.
Никакого instruction finetuning или RLHF не применяется (желающие могут дообучить сами). Основной режим использования модели это direct completion, но некоторый ограниченный instruction following модель может делать.
Результаты очень неплохи.
На WinoGrande, ARC-Challenge, SIQA бьёт разные опенсорсные модели вплоть до Vicuna-13B, Llama2-7B, Falcon-7B. На BoolQ и ARC-Easy недотягивает до викуны или второй ламы, но всё равно весьма достойно.
При этом phi-1.5-web-only бьёт все модели сопоставимого размера, даже когда обучается на сильно меньших датасетах (например, на всего 15% от размера Falcon-1.3B). Добавление синтетики (и получение модели phi-1.5-web) даёт очень большой буст, а модель без веба, phi-1.5 не сильно от неё отстаёт.
На Hellaswag заметное отставание от больших моделей, на MMLU от некоторых больших. На PIQA, OpenbookQA, SQUAD (EM) прям хорошо.
При валидации reasoning abilities на математике и коде очень крутые цифры для такого размера модели. Иногда бьёт Llama-65B. Добавление данных веба местами неплохо помогает.
Интересно, что способность к кодингу у phi-1.5 почти как у phi-1, которая была обучена чисто для кода. Авторы считают, что в этом преимущество качественных данных -- при обучении на миксе задач модель не теряет в качестве.
По токсичности не идеал, но лучше Llama2-7B и Falcon-7B.
Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar, Yin Tat Lee
Статья: https://arxiv.org/abs/2309.05463
Модель: https://huggingface.co/microsoft/phi-1_5
Продолжение работы “Textbooks Are All You Need” (https://arxiv.org/abs/2306.11644) про маленькую да удаленькую модель phi-1, которая при размере в 1.3B параметров и при обучении в течение всего 4 дней на 8 A100 (что чуть больше $3k по ценам Амазона, и наверное даже дешевле в случае H100), демонстрирует весьма достойные результаты в генерации кода на Питоне.
До этого ещё была аналогичная работа TinyStories (https://arxiv.org/abs/2305.07759) не про код, а про английский язык и SLM (small language models) размеров типа 10M (не B!) параметров.
В этих работах вкладывались в качественные датасеты, включая части сгенерированные GPT-шками.
В текущей работе продолжают линию phi-1, фокусируясь на common sense reasoning и обучают новую 1.3B модель phi-1.5 с весьма достойным перформансом, превосходящим в разы более тяжёлые модели типа Llama 2-7B или Vicuna-13B. Эту обучали на 32 A100 8 дней.
Архитектура phi-1 и phi-1.5 идентична, трансформер с 24 слоями, 32 головами каждая размерности 64. Используются rotary embedding, длина контекста 2048. При обучении использовался Flash attention.
В обучающем датасете 7B токенов из датасета для phi-1, и примерно 20B новых синтетических “textbook-like” data для обучения модели common sense reasoning. Для создания датасета тщательно отобраны 20К тем для генерации, в промптах для генерации использовались для разнообразия сэмплы из веба. Не-синтетическая часть датасета -- это всего 6B токенов отфильтрованного кода из датасета для phi-1.
Авторы упирают на то, что создание датасета -- очень важный процесс, требующий итераций, стратегического выбора тем, и глубокого понимания пробелов в знаниях чтобы обеспечить качество и разнообразие данных. И по мнению авторов, создание синтетических датасетов станет в ближайшем будущем важным техническим навыком и центральной темой ИИ исследований.
Во время обучения используется 150B токенов, 80% из нового синтетического датасета, а 20% из датасета от phi-1.
Также обучили ещё две модели phi-1.5-web-only и phi-1.5-web. Для них используется 95B токенов фильтрованных данных из веба, 88B из датасета от Falcon, и 7B из The Stack и StackOverflow. Модель phi-1.5-web-only обучается только на датасете веба (80%) + код (20%), без всякой синтетики, а phi-1.5-web на миксе из всего: 40% веб, 20% код, 40% новая синтетика.
Никакого instruction finetuning или RLHF не применяется (желающие могут дообучить сами). Основной режим использования модели это direct completion, но некоторый ограниченный instruction following модель может делать.
Результаты очень неплохи.
На WinoGrande, ARC-Challenge, SIQA бьёт разные опенсорсные модели вплоть до Vicuna-13B, Llama2-7B, Falcon-7B. На BoolQ и ARC-Easy недотягивает до викуны или второй ламы, но всё равно весьма достойно.
При этом phi-1.5-web-only бьёт все модели сопоставимого размера, даже когда обучается на сильно меньших датасетах (например, на всего 15% от размера Falcon-1.3B). Добавление синтетики (и получение модели phi-1.5-web) даёт очень большой буст, а модель без веба, phi-1.5 не сильно от неё отстаёт.
На Hellaswag заметное отставание от больших моделей, на MMLU от некоторых больших. На PIQA, OpenbookQA, SQUAD (EM) прям хорошо.
При валидации reasoning abilities на математике и коде очень крутые цифры для такого размера модели. Иногда бьёт Llama-65B. Добавление данных веба местами неплохо помогает.
Интересно, что способность к кодингу у phi-1.5 почти как у phi-1, которая была обучена чисто для кода. Авторы считают, что в этом преимущество качественных данных -- при обучении на миксе задач модель не теряет в качестве.
По токсичности не идеал, но лучше Llama2-7B и Falcon-7B.
Источник: gonzo-обзоры ML статей
2023-09-19 22:33:35