Вот пример того, как выглядят разные LR Schedulers

Вот пример того, как выглядят разные LR Schedulers. Представим, что 5000 шагов — это сколько мы хотим обучать сейчас, а 10000 шагов — сколько всего будем тренировать модель за все итерации.

Самый светлый зелёный — это классика. Мы обучаемся до 5000 шагов (предтренировка), а затем с LR ~10% от исходного дообучаем ещё 5000 шагов.

Потемнее — WSD. Видно, что LR остаётся равным максимальному 90% времени (полосочка в самом верху).

Самый тёмный зелёный — это как будто мы не сделали шаг снижения после ~4500 шагов, а взяли оттуда состояние модели и продолжили учить ещё 5000 шагов (и в конце снова снизили LR).

Источник: Сиолошная

2024-02-06 12:10:42