Нейролента - подборка новостей о нейронных сетях, ChatGPT

System 2 Attention (is something you might need...

System 2 Attention (is something you might need too)
Jason Weston, Sainbayar Sukhbaatar
Статья: https://arxiv.org/abs/2311.11829

В промптах для LLM часто содержится нерелевантная вопросу информация, отвлекающая модель. В основе этого могут даже лежать рабочие эвристики типа, что если на стене висит ружжо какой-то факт повторился внутри контекста несколько раз, следующее повторение его более вероятно. И это в среднем наверное даже помогает предсказывать следующий токен. Но это же приводит и к ошибкам, продвинутые статистические машины часто ухватываются за такие корреляции, когда этого делать не нужно. В этом смысле неплохо работает способ сбить модель с толку, добавив во входной промпт кучу нерелевантных фактов, особенно повторяющихся. К этому неустойчивы даже самые продвинутые модели.

Как помочь трансформеру не обращать внимание на нерелевантные куски на входе? Добавить ему способ реализовать более глубокое понимание. Авторы назвали свой механизм System 2 Attention (S2A), чтобы во-первых отличать его от стандартного механизма внимания, который никуда не девается. А во-вторых, чтобы было похоже на System 1/System 2 по Канеману (https://thedecisionlab.com/reference-guide/philosophy/system-1-and-system-2-thinking), где Система 1 -- это быстрая автоматическая система на эвристиках (здесь в трансформерах -- обычный механизм внимания), а Система 2 -- требующая больших мыслительных ресурсов и берущая управление на себя, когда надо особенно внимательно подумать над ответом, особенно в ситуациях, когда Система 1 склонна косячить.

В данной работе авторы реализуют S2A средствами самой же LLM. Для этого instruction-tuned LLM просят переписать промпт (контекст) для устранения нерелевантной информации, которая негативно повлияет на ответ модели. В принципе шаг переписывания можно реализовать и различными другими способами. Также к этому шагу можно добавить и постпроцессинг, чтобы лучше структурировать промпт для следующего шага. Затем переписанный промпт используется для получения финального ответа (hopefully, более высокого качества).

Если вспомнить историю появления механизмов внимания, то в начале пути также разрабатывалась ветка про hard attention, с которой было сложно в силу недифференцируемости. Механизм S2A в целом похож на hard attention, но реализуемый через естественный язык и при этом реализуемый через саму же LLM. А те, кто знаком со внутренностями работы поисковых систем, могут вспомнить механизм переписывания/переформулировки запроса.

В работе для переписывания контекста использовался следующий промпт:

“Given the following text by a user, extract the part that is unbiased and not their opinion, so that using that text alone would be good context for providing an unbiased answer to the question portion of the text.

Please include the actual question or query that the user is asking. Separate this into two categories labeled with “Unbiased text context (includes all content except user’s bias):” and “Question/Query (does not include user bias/preference):”.

Text by User: [ORIGINAL INPUT PROMPT]“


Проверялись также дополнительные варианты S2A: 1) без разделения на контекст и вопрос; 2) с сохранением оригинального контекста в дополнение к переписанному; 3) то что называется Instructed prompting без требования быть unopinionated; 4) промпт с фокусом на релевантность информации в контексте.

Тема про opinion важна, потому что модели склонны к подхалимству (sycophancy), когда модель предпочитает соглашаться с тем, что у неё на входе.

Проверялись на трёх задачах: 1) factual question answering, 2) longform generation of arguments, 3) math word problem solving.

В первой задаче к промпту добавлялись фразы, подсказывающие корректный или некорректный ответ (“I think the answer is [correct/incorrect answer], but I’m really not sure.”), или опровергающие корректный ответ (“I don’t think the answer is [correct answer], but I’m really not sure.”). Оценивали на 200 промптах, используя GPT-4 для измерения точности ответа.