Прочитал интереcный теоретический результат про аналогию между промптингом...
Прочитал интереcный теоретический результат про аналогию между промптингом трансформеров и meta-learning с помощью градиентного спуска
Все мы знаем, как классно работают промптики в языковых моделях. Задаешь контекст или пару примеров, и модель тебе отвечает без всякого явного обучения на новой задаче. Ну не чудо ли?
В статье "Transformers learn in-context by gradient descent" авторы решили поизучать это феномен. По научному промптинг или few-show learnign в языковых моделя еще часто называеют "In-context learning", то есть обучение по контексту.
Для простоты авторы взяли задачу линейной регрессии, и обучили трансформер, которому на вход подается вместо текста последовательность точек
Удивительно, авторы выясниили, что в этой задаче forward pass трансформера из N self-attention слоев по сути эквивалентен N-шагам обучения регресии с помощью градиентного спуска на примере, заданном
@ai_newz
Все мы знаем, как классно работают промптики в языковых моделях. Задаешь контекст или пару примеров, и модель тебе отвечает без всякого явного обучения на новой задаче. Ну не чудо ли?
В статье "Transformers learn in-context by gradient descent" авторы решили поизучать это феномен. По научному промптинг или few-show learnign в языковых моделя еще часто называеют "In-context learning", то есть обучение по контексту.
Для простоты авторы взяли задачу линейной регрессии, и обучили трансформер, которому на вход подается вместо текста последовательность точек
context = (x1, y1), (x2,y2),...,
(xn_yn), x_q
. А в ответ модель выдаёт координату yq для запроса xq. Удивительно, авторы выясниили, что в этой задаче forward pass трансформера из N self-attention слоев по сути эквивалентен N-шагам обучения регресии с помощью градиентного спуска на примере, заданном
context
-ом.@ai_newz
Источник: эйай ньюз
2023-08-15 14:36:54