Визуализация того, как работает одна голова внимания

Визуализация того, как работает одна голова внимания.

У нас есть длинный-длинный текст, а в его середину вставлена иголка: предложение про Сан-Франциско и сэндвич. Это предложение не имеет никакого отношения к контексту.

И вот когда мы задаём модели вопрос, то она смотрит в контекст и определяет, что ответ содержится вот в этой вставке. Для всех остальных слов синяя колонка (= количество внимания) около нуля, а для текущего слова, которое модель хочет выписать в рамках ответа, куда больше.

Источник: Сиолошная

2024-04-25 23:01:32