Нейролента - подборка новостей о нейронных сетях, ChatGPT

Тогда при обучении наблюдается следующая картинка

Тогда при обучении наблюдается следующая картинка. Почти всё время тренировки модель показывает loss хуже, чем с обычным Cosine LR Scheduler, зато в конце быстро начинает снижаться и сходится к значениям даже чуть получше. При этом при желании можно отказаться от снижения и продолжать тренировку (например, если прошло 2 месяца и хочется залить новости и статьи за этот период в модель).

А можно пойти ещё дальше: в эти последние 10% во время снижения положить отфильтрованные и самые качественные данные! И по сути это эквивалентно SFT (Supervised FineTuning, дообучение на размеченных данных). И, как показывает эксперимент с дообучением одной и той же модели на разных 10%, это существенно влияет на выходные метрики.