Прочитал интереcный теоретический результат про аналогию между промптингом...

Прочитал интереcный теоретический результат про аналогию между промптингом трансформеров и meta-learning с помощью градиентного спуска

Все мы знаем, как классно работают промптики в языковых моделях. Задаешь контекст или пару примеров, и модель тебе отвечает без всякого явного обучения на новой задаче. Ну не чудо ли?

В статье "Transformers learn in-context by gradient descent" авторы решили поизучать это феномен. По научному промптинг или few-show learnign в языковых моделя еще часто называеют "In-context learning", то есть обучение по контексту.

Для простоты авторы взяли задачу линейной регрессии, и обучили трансформер, которому на вход подается вместо текста последовательность точек context = (x1, y1), (x2,y2),..., (xn_yn), x_q. А в ответ модель выдаёт координату yq для запроса xq.

Удивительно, авторы выясниили, что в этой задаче forward pass трансформера из N self-attention слоев по сути эквивалентен N-шагам обучения регресии с помощью градиентного спуска на примере, заданном context-ом.

@ai_newz

Источник: эйай ньюз

2023-08-15 14:36:54