Sophia: новый оптимизатор, который 2x быстрее, чем Adam...
Sophia: новый оптимизатор, который 2x быстрее, чем Adam для тренировки LLM
До сих пор все тренируем со старым добрым Адамом. А ему уже 7 лет!
Не так давно я писал о многообещающем оптимизаторе LION. Ну, а теперь появился еще один интересный кандидат.
Sophia — это оптимизатор, который использует быструю оценку Гессиана (матрица вторых производных) для того чтобы быстрее двигаться в плоских областях ландшафта функции потерь, где именно Адам довольно медленно продвигается. Вторые производные тут как раз помогают более точно понять, в каком направлении нужно оптимизировать параметры.
Вычислять Гессиан в общем случае довольно медленно, поэтому методы второго порядка так и не получии распространения в DL.
На картинке есть псевдокод, из которого видно, что оценить диагональные элементы Гессиана можно довольно быстро.
Sophia ускоряет обучение LLM в 2 раза (!). Протестировали на GPT-2 моделях масштаба от 125M до 770M параметров. Тренд на дальнейшее масштабирование выглядит хорошо.
❱❱ Arxiv | Code
@ai_newz
До сих пор все тренируем со старым добрым Адамом. А ему уже 7 лет!
Не так давно я писал о многообещающем оптимизаторе LION. Ну, а теперь появился еще один интересный кандидат.
Sophia — это оптимизатор, который использует быструю оценку Гессиана (матрица вторых производных) для того чтобы быстрее двигаться в плоских областях ландшафта функции потерь, где именно Адам довольно медленно продвигается. Вторые производные тут как раз помогают более точно понять, в каком направлении нужно оптимизировать параметры.
Вычислять Гессиан в общем случае довольно медленно, поэтому методы второго порядка так и не получии распространения в DL.
На картинке есть псевдокод, из которого видно, что оценить диагональные элементы Гессиана можно довольно быстро.
Sophia ускоряет обучение LLM в 2 раза (!). Протестировали на GPT-2 моделях масштаба от 125M до 770M параметров. Тренд на дальнейшее масштабирование выглядит хорошо.
❱❱ Arxiv | Code
@ai_newz
Источник: эйай ньюз
2023-05-25 10:00:19