RHO-1: Not All Tokens Are What You Need
Статья от Microsoft про то, как более эффективно дообучать LLM-ки, то есть как за меньшее количество шагов обучения (и потреблённых данных) получать качество лучше. В рамках данной работы делается фокус на способности модели решать математические задачи.
Начнём с вот такого графика, чтоб было понятно. Слева модель на 1B параметров, справа — на 7B. Серая пунктирная линия сверху показывает уровень моделей семейства DeepSeekMath — китайских LLM'ок, специально обученных на 150B/500B токенов, релевантных решению математических задач (они по-умному фильтровали данные). До недавнего времени эти модели были лучшими в своём классе.
По оси X — количество тренировочных токенов, максимум 15B — то есть в 10/33 раза меньше, чем у азиатов. По оси Y — качество модели. Видно, что новый подход позволяет добиться тех же результатов за куда меньший срок (для мелкой модели — даже улучшить результат). В обоих случаях речь идёт про дообучение, а не тренировку с нуля — то есть модель сама по себе уже что-то знает (модель на 7B это Mistral, крепкая штучка).
Модели выложены, код (без данных для обучения) и ссылки тут.
Статья от Microsoft про то, как более эффективно дообучать LLM-ки, то есть как за меньшее количество шагов обучения (и потреблённых данных) получать качество лучше. В рамках данной работы делается фокус на способности модели решать математические задачи.
Начнём с вот такого графика, чтоб было понятно. Слева модель на 1B параметров, справа — на 7B. Серая пунктирная линия сверху показывает уровень моделей семейства DeepSeekMath — китайских LLM'ок, специально обученных на 150B/500B токенов, релевантных решению математических задач (они по-умному фильтровали данные). До недавнего времени эти модели были лучшими в своём классе.
По оси X — количество тренировочных токенов, максимум 15B — то есть в 10/33 раза меньше, чем у азиатов. По оси Y — качество модели. Видно, что новый подход позволяет добиться тех же результатов за куда меньший срок (для мелкой модели — даже улучшить результат). В обоих случаях речь идёт про дообучение, а не тренировку с нуля — то есть модель сама по себе уже что-то знает (модель на 7B это Mistral, крепкая штучка).
Модели выложены, код (без данных для обучения) и ссылки тут.
Источник: Сиолошная
2024-04-15 10:58:54