Итак, почитал статью (не полностью), посмотрел, что пишут...
Итак, почитал статью (не полностью), посмотрел, что пишут другие, тезисно:
— главное: модель станет новым флагманом всего OpenSource сообщества, так как во всех аспектах лучше своей предшественницы, наделавшей много шума (и породившей целую волну хайпа). При этом с точки зрения архитектуры изменения незначительные: ширина контекста 4k токенов (в 2 раза больше), плюс для больших моделей используется оптимизация с целью экономии памяти при генерации. То есть модельки теперь должны чуть быстрее работать, и обладать большей пропускной способностью. Модель УЖЕ запускается в GGML/паре других интерфейсов🤪 (может быть даже без изменений кода, но не смотрел)
— тренировочная выборка включает набор данных из общедоступных источников, и не включает данные от продуктов Meta (Insta, WhatsApp, etc.). Также удалены данные, полученные с сайтов, содержащих большой объем персональной информации
— все модели тренировались 2 триллиона токенов. Это на 42-100% больше прошлых LLAMA (там было 1T для маленьких и 1.4T для больших). По оценкам и слухам, GPT-4 тренировалась на ~13T токенов, а PaLM-2 от Google чуть меньше (порядка десяти триллионов)
— больше про датасет для предтренировки почти не говорят, лишь упоминают, что чаще берут данные из источников с "фактами", чтобы модель их выучивала и меньше галлюцианировала
— значимая часть статьи посвящена измененной процедуре тренировки, а если конкретнее - дотренировке. То есть первые 90-95% времени модель учится предсказывать следующее слово в тексте и всё. А вот потом начинается часть, аналогичная ChatGPT (мегаподробно можно прочитать и перечитать в моей статье, с картинками и объяснениями на пальцах)
— для того, чтобы такую дотренировку произвести, нужны данные о человеческих предпочтениях (чтобы модель училась их угадывать и удовлетворять пользовательские запросы). Данные глобально размечались по двум направлениям: safety & helpfulness. Причём, аннотировались целые диалоги, что существенно отличает формат данных от публично доступных. Всего вышло более 1.4M пар сравнения (человек считает, что A лучше B), а среднее количество фраз в диалоге равняется 3.9.
– я как раз писал, что опенсорсные модели страдают от этого, и хуже работают в диалоговом формате. По идее наследники LLAMA-2 должны быть лучше в поддержании контекста. В среднем в диалоге было 800 токенов, что очень много (~2 страницы текста).
— данные собирались итеративно, то есть модель обучали несколько раз, и затем уже более качественной генерировали новые диалоги для оценки, и так по кругу. Также делали и OpenAI.
— Однако всего таких пар сравнения было почти 3 миллиона: использовались открытые датасеты от других авторов. Самый большой датасет - больше 1 миллиона сравнений ответов - был со StackExchange (рейтинги разных комментариев на один и тот же вопрос)
— на всех этих парах для сравнений учится так называемая Reward Model (то же и для ChatGPT). Интересно, что тут предлагается обучать две разных модели (одна для safety и одна для helpfulness). При этом есть очень интересное замечание: авторы сравнивают полученную модель с запромпченной GPT4, и они превосходят ее в качестве, но при этом если обучать модель выкинув все собранные в компании 1.4M пар, то такая модель работает хуже GPT-4. То есть всё еще человеческие данные лучше, но они должны быть очень высокого качества - просто хорошее выдают уже и модели. Под качеством здесь понимается доля пар, в которых вердикт модели совпал с оценкой человека.
— перед главной о дообучении моделей разработчики из META указывают на самую важную вещь, которую легко пропустить: точность полученной Reward Model является одним из наиболее важных показателей конечной эффективности моделей. По слухам, примерно к тому же пришли в OpenAI/Anthropic (что имеет смысл вкладываться в качество и количество разметки, и на этом делать хорошую модель). Вот тут есть хороший блогпост с объяснением, почему никто не выкладывает свои Reward Model.
<--конец первой части-->
— главное: модель станет новым флагманом всего OpenSource сообщества, так как во всех аспектах лучше своей предшественницы, наделавшей много шума (и породившей целую волну хайпа). При этом с точки зрения архитектуры изменения незначительные: ширина контекста 4k токенов (в 2 раза больше), плюс для больших моделей используется оптимизация с целью экономии памяти при генерации. То есть модельки теперь должны чуть быстрее работать, и обладать большей пропускной способностью. Модель УЖЕ запускается в GGML/паре других интерфейсов
— тренировочная выборка включает набор данных из общедоступных источников, и не включает данные от продуктов Meta (Insta, WhatsApp, etc.). Также удалены данные, полученные с сайтов, содержащих большой объем персональной информации
— все модели тренировались 2 триллиона токенов. Это на 42-100% больше прошлых LLAMA (там было 1T для маленьких и 1.4T для больших). По оценкам и слухам, GPT-4 тренировалась на ~13T токенов, а PaLM-2 от Google чуть меньше (порядка десяти триллионов)
— больше про датасет для предтренировки почти не говорят, лишь упоминают, что чаще берут данные из источников с "фактами", чтобы модель их выучивала и меньше галлюцианировала
— значимая часть статьи посвящена измененной процедуре тренировки, а если конкретнее - дотренировке. То есть первые 90-95% времени модель учится предсказывать следующее слово в тексте и всё. А вот потом начинается часть, аналогичная ChatGPT (мегаподробно можно прочитать и перечитать в моей статье, с картинками и объяснениями на пальцах)
— для того, чтобы такую дотренировку произвести, нужны данные о человеческих предпочтениях (чтобы модель училась их угадывать и удовлетворять пользовательские запросы). Данные глобально размечались по двум направлениям: safety & helpfulness. Причём, аннотировались целые диалоги, что существенно отличает формат данных от публично доступных. Всего вышло более 1.4M пар сравнения (человек считает, что A лучше B), а среднее количество фраз в диалоге равняется 3.9.
– я как раз писал, что опенсорсные модели страдают от этого, и хуже работают в диалоговом формате. По идее наследники LLAMA-2 должны быть лучше в поддержании контекста. В среднем в диалоге было 800 токенов, что очень много (~2 страницы текста).
— данные собирались итеративно, то есть модель обучали несколько раз, и затем уже более качественной генерировали новые диалоги для оценки, и так по кругу. Также делали и OpenAI.
— Однако всего таких пар сравнения было почти 3 миллиона: использовались открытые датасеты от других авторов. Самый большой датасет - больше 1 миллиона сравнений ответов - был со StackExchange (рейтинги разных комментариев на один и тот же вопрос)
— на всех этих парах для сравнений учится так называемая Reward Model (то же и для ChatGPT). Интересно, что тут предлагается обучать две разных модели (одна для safety и одна для helpfulness). При этом есть очень интересное замечание: авторы сравнивают полученную модель с запромпченной GPT4, и они превосходят ее в качестве, но при этом если обучать модель выкинув все собранные в компании 1.4M пар, то такая модель работает хуже GPT-4. То есть всё еще человеческие данные лучше, но они должны быть очень высокого качества - просто хорошее выдают уже и модели. Под качеством здесь понимается доля пар, в которых вердикт модели совпал с оценкой человека.
— перед главной о дообучении моделей разработчики из META указывают на самую важную вещь, которую легко пропустить: точность полученной Reward Model является одним из наиболее важных показателей конечной эффективности моделей. По слухам, примерно к тому же пришли в OpenAI/Anthropic (что имеет смысл вкладываться в качество и количество разметки, и на этом делать хорошую модель). Вот тут есть хороший блогпост с объяснением, почему никто не выкладывает свои Reward Model.
<--конец первой части-->
Источник: Сиолошная
2023-07-18 20:23:23