Вот пример того, как выглядят разные LR Schedulers
Вот пример того, как выглядят разные LR Schedulers. Представим, что 5000 шагов — это сколько мы хотим обучать сейчас, а 10000 шагов — сколько всего будем тренировать модель за все итерации.
Самый светлый зелёный — это классика. Мы обучаемся до 5000 шагов (предтренировка), а затем с LR ~10% от исходного дообучаем ещё 5000 шагов.
Потемнее — WSD. Видно, что LR остаётся равным максимальному 90% времени (полосочка в самом верху).
Самый тёмный зелёный — это как будто мы не сделали шаг снижения после ~4500 шагов, а взяли оттуда состояние модели и продолжили учить ещё 5000 шагов (и в конце снова снизили LR).
Самый светлый зелёный — это классика. Мы обучаемся до 5000 шагов (предтренировка), а затем с LR ~10% от исходного дообучаем ещё 5000 шагов.
Потемнее — WSD. Видно, что LR остаётся равным максимальному 90% времени (полосочка в самом верху).
Самый тёмный зелёный — это как будто мы не сделали шаг снижения после ~4500 шагов, а взяли оттуда состояние модели и продолжили учить ещё 5000 шагов (и в конце снова снизили LR).
Источник: Сиолошная
2024-02-06 12:10:42