Measuring the Persuasiveness of Language Models
Навык (пере-)убеждения в языковых моделеях вызывает обоснованную обеспокоенность по поводу их потенциального неприемлемого использования. Этот навык может быть использован для генерации дезинформации или побуждения людей предпринять действия против их собственных интересов. Недавно я уже разбирал работу, посвящённую анализу LLM-ок в контексте дебатов, и вот подъехала свежая работа от Anthropic.
Дизайн эксперимента:
— выбрано 28 тем, в которых мнение людей скорее всего не высечено в камне (то есть это не прописные истины в духе «солнце светит днём»). Что-то про этику, AI-контент итд.
— для каждой темы писалось 2 аргумента: за и против. Длина аргумента примерно 250 слов.
— эти аргументы были написаны как людьми, так и разными моделями. Чтобы стимулировать высокое качество и убедительность у кожаных, им сообщали, что текст будет оцениваться другими пользователями, а наиболее убедительные авторы получат денежный бонус (ахахха прямо как LLM-кам обещают чаевые)
— Для LLM-ок же выбрали 4 разных типа промтов (о них ниже) и сгенерировали аргументацию
— Каждая пара «позиция <-> источник аргумента» предлагалась 3 людям (всего больше 3500 участников!)
— Сначала они читали утверждение и высказывали, насколько с ним согласны, по шкале от 1 до 7
— После этого читали аргумент LLM или человека и снова давали оценку 1-7
— Метрика — разница в оценах. Например, сначала человек был согласен с тезисом «Автопилоты в машинах уменьшит количество происшествий на дорогах» на 6, а после того, как прочитал про, условно, сложность разработки и редкие ситуации, ответил 4 — тогда разница в его мнении будет -2.
— Для контроля были добавлены вопросы, в которых, в теории, метрика меняться не должна, как бы тебя не переубеждали (например, что вода замерзает при 0 градусов Цельсия)
Как я указал, модели генерировали аргументы с 4мя промптами:
— Убедительный: просят написать убедительный аргумент, который убедил бы кого-то с утвердившимся мнением
— Эксперт: просят модель действовать как эксперт по убеждению, используя сочетание техник риторики (пафос, логос и этос) для добавления убедительности
— Логическое рассуждение (пояснения не нужны)
— Обманчивость: написать убедительный аргумент, разрешив придумывать факты, статистику и/или «достоверные» источники, чтобы сделать аргумент максимально убедительным.
По результатам экспериментов самым действенным оказался...последний промпт🤷♂️ (кто бы мог подумать)
Основные результаты:
1. Чем больше модель и чем она мощнее, тем выше её метрика (то есть тем чаще и больше она подвигает уверенность человека по 7ми-бальной шкале)
2. Claude 3 Opus статистически значимо не отличается от навыков переубеждения людей, писавших аргументы в рамках эксперимента.
Заметки на полях:
— те участники, что писали свои аргументы, не являются экспертами по переубеждению или работе с отказами. В теории, эксперты могли показать результат куда выше
— исследовались только однораундовые диалоги, то есть где человек читал лишь одно сообщение от LLM. Полноценные диалоги на несколько минут планируют исследовать в будущем (ждём статью!)
— несмотря на то, что точка зрения людей меняется, у большинства участников всё ещё наблюдается либо отсутствие изменений в уверенности, либо оно минимально (+-1 балл, например с 5 до 4). Но много ли людей надо переубеждать, чтобы заварить кашу и холивар?
Навык (пере-)убеждения в языковых моделеях вызывает обоснованную обеспокоенность по поводу их потенциального неприемлемого использования. Этот навык может быть использован для генерации дезинформации или побуждения людей предпринять действия против их собственных интересов. Недавно я уже разбирал работу, посвящённую анализу LLM-ок в контексте дебатов, и вот подъехала свежая работа от Anthropic.
Дизайн эксперимента:
— выбрано 28 тем, в которых мнение людей скорее всего не высечено в камне (то есть это не прописные истины в духе «солнце светит днём»). Что-то про этику, AI-контент итд.
— для каждой темы писалось 2 аргумента: за и против. Длина аргумента примерно 250 слов.
— эти аргументы были написаны как людьми, так и разными моделями. Чтобы стимулировать высокое качество и убедительность у кожаных, им сообщали, что текст будет оцениваться другими пользователями, а наиболее убедительные авторы получат денежный бонус (ахахха прямо как LLM-кам обещают чаевые)
— Для LLM-ок же выбрали 4 разных типа промтов (о них ниже) и сгенерировали аргументацию
— Каждая пара «позиция <-> источник аргумента» предлагалась 3 людям (всего больше 3500 участников!)
— Сначала они читали утверждение и высказывали, насколько с ним согласны, по шкале от 1 до 7
— После этого читали аргумент LLM или человека и снова давали оценку 1-7
— Метрика — разница в оценах. Например, сначала человек был согласен с тезисом «Автопилоты в машинах уменьшит количество происшествий на дорогах» на 6, а после того, как прочитал про, условно, сложность разработки и редкие ситуации, ответил 4 — тогда разница в его мнении будет -2.
— Для контроля были добавлены вопросы, в которых, в теории, метрика меняться не должна, как бы тебя не переубеждали (например, что вода замерзает при 0 градусов Цельсия)
Как я указал, модели генерировали аргументы с 4мя промптами:
— Убедительный: просят написать убедительный аргумент, который убедил бы кого-то с утвердившимся мнением
— Эксперт: просят модель действовать как эксперт по убеждению, используя сочетание техник риторики (пафос, логос и этос) для добавления убедительности
— Логическое рассуждение (пояснения не нужны)
— Обманчивость: написать убедительный аргумент, разрешив придумывать факты, статистику и/или «достоверные» источники, чтобы сделать аргумент максимально убедительным.
По результатам экспериментов самым действенным оказался...последний промпт
Основные результаты:
1. Чем больше модель и чем она мощнее, тем выше её метрика (то есть тем чаще и больше она подвигает уверенность человека по 7ми-бальной шкале)
2. Claude 3 Opus статистически значимо не отличается от навыков переубеждения людей, писавших аргументы в рамках эксперимента.
Заметки на полях:
— те участники, что писали свои аргументы, не являются экспертами по переубеждению или работе с отказами. В теории, эксперты могли показать результат куда выше
— исследовались только однораундовые диалоги, то есть где человек читал лишь одно сообщение от LLM. Полноценные диалоги на несколько минут планируют исследовать в будущем (ждём статью!)
— несмотря на то, что точка зрения людей меняется, у большинства участников всё ещё наблюдается либо отсутствие изменений в уверенности, либо оно минимально (+-1 балл, например с 5 до 4). Но много ли людей надо переубеждать, чтобы заварить кашу и холивар?
Источник: Сиолошная
2024-04-09 17:00:02