Визуализация того, как работает одна голова внимания
Визуализация того, как работает одна голова внимания.
У нас есть длинный-длинный текст, а в его середину вставлена иголка: предложение про Сан-Франциско и сэндвич. Это предложение не имеет никакого отношения к контексту.
И вот когда мы задаём модели вопрос, то она смотрит в контекст и определяет, что ответ содержится вот в этой вставке. Для всех остальных слов синяя колонка (= количество внимания) около нуля, а для текущего слова, которое модель хочет выписать в рамках ответа, куда больше.
У нас есть длинный-длинный текст, а в его середину вставлена иголка: предложение про Сан-Франциско и сэндвич. Это предложение не имеет никакого отношения к контексту.
И вот когда мы задаём модели вопрос, то она смотрит в контекст и определяет, что ответ содержится вот в этой вставке. Для всех остальных слов синяя колонка (= количество внимания) около нуля, а для текущего слова, которое модель хочет выписать в рамках ответа, куда больше.
Источник: Сиолошная
2024-04-25 23:01:32