Итого: модель как-бы обучается лучше (потому что впитывает...
Итого: модель как-бы обучается лучше (потому что впитывает больше знаний из того же объема данных), и поэтому 2B версия сравнивается по качеству с 7B/13B старшими братьями.
Мне это кажется немного подозрительным, и оснований радоваться пока маловато. Основной скепсис — в том, какие данные использовались для дообучения на шаге снижения LR. Там есть куча синтетических данных от GPT-4, которая могла тренироваться на выборках разных датасетов, а значит может выдавать ответы -> это завышает оценку для маленькой модели. Смотрите сами на чарте — примерно 15-20% данных это синтетика, и она лежит в сааааамом конце тренировки (то есть модель эти данные запомнит лучше всего).
Но если это правда (а за пару дней я критики так и не увидел, равно как и восторгов), то это большая новость — она показывает как обучать модели более пОлно, вбивая в них больше знаний.
Ну и во второй раз в истории LLM за последние 2 года окажется, что модельки СУЩЕСТВЕННО недотренированны, и что из мЕньших моделей можно выжимать значительно больше.
Мне это кажется немного подозрительным, и оснований радоваться пока маловато. Основной скепсис — в том, какие данные использовались для дообучения на шаге снижения LR. Там есть куча синтетических данных от GPT-4, которая могла тренироваться на выборках разных датасетов, а значит может выдавать ответы -> это завышает оценку для маленькой модели. Смотрите сами на чарте — примерно 15-20% данных это синтетика, и она лежит в сааааамом конце тренировки (то есть модель эти данные запомнит лучше всего).
Но если это правда (а за пару дней я критики так и не увидел, равно как и восторгов), то это большая новость — она показывает как обучать модели более пОлно, вбивая в них больше знаний.
Ну и во второй раз в истории LLM за последние 2 года окажется, что модельки СУЩЕСТВЕННО недотренированны, и что из мЕньших моделей можно выжимать значительно больше.
Источник: Сиолошная
2024-02-06 12:10:54