On the Conversational Persuasiveness of Large Language Models: A Randomized Controlled Trial
В последние десятилетия распространение социальных сетей и других онлайн-платформ расширило потенциал массового убеждения за счет персонализации или микротаргетинга, то есть адаптации сообщений к отдельной персоне или группе лиц для повышения убедительности. Однако классические подходы было сложно масштабировать из-за затрат на сбор профильной информации с последующим созданием персонализированных сообщений, обращенных к конкретным лицам с конкретным посылом.
В этом контексте сенаторы в ходе слушаний почти год назад высказывали опасения по поводу LLM. Ведь если они могут эту работу принять на себя, то начнётся невероятная война переубеждений в интернете. Если раньше государство могло нанять ну пусть несколько десятков тысяч людей на условную фабрику троллей писать комментарии (может даже не персонализированные), то с ресурсами на уровне страны можно будет КАЖДОМУ человеку предоставить персонализированного переубеждателя, который не устаёт, может отработать любую точку зрения по любой теме и сколько угодно долго.
Итальянцы и швейцарцы задаются вопросом — а могут ли уже модели текущего поколения переубеждать людей в дебатах? Для этого проводится контролируемое исследование с участием 820 людей (все — совершеннолетние из США). Каждый заполняет о себе анкетку с указанием персональных, но в среднем легко собираемых данных: Gender, Age, Ethnicity, Education Level, Employment status, и Political affiliation.
После этого участник попадает на 10-минутные дебаты по одному из вопросов. Его оппонентом может быть либо другой человек, либо GPT-4. В одних экспериментах участнику доступна персонализированная информация об оппоненте, в других — нет. Тема выбирается случайно, равно как и позиция по теме (то есть иногда нужно отстаивать позицию, которую не разделяешь — в прочем, как и в реальных дебатах).
Что это за темы? Изначально был составлен список из 60 топиков. Его отфильтровали по 1) осведомленности населения (чтобы не дискутировать без аргументов) 2) скошенности согласия (где люди чаще всего имели одну и ту же позицию) 3) сложности переубеждения (выкинули топики, где люди утверждали, что их позиция вообще никак не может быть изменена). Итого осталось 30 острых топиков для дебатов, например: «Are Social Media Making People Stupid?», «Should the Rich Pay More Taxes?», «Should Governments Have the Right to Censor the Internet?». Как видите, вопросы очень актуальны, так что возможность LLM менять мнение людей по ним — это очень важный сигнал.
Перед началом дебатов живые участники указывали согласие со своей позицией, и это же делали после 10-минутного раунда. В исследовании замерялось, как меняется позиция участника, удалось ли его оппоненту переубедить его?
Без персонализации результаты не очень интересны, а вот с ней... Если показывать блок с информацией для людей, то обычно в ходе дебатов позиции радикализируются. А если LLM, то те преуспевают в переубеждении гораздо больше, чем люди, и в исследовании достигается статистически значимая разница. GPT-4 достигла вероятности согласия оппонента с её позицией на 81,7% больше, чем если бы это делал человек. То есть ещё раз, люди с доступом к перс. инфе не могут так складно стелить, как LLM'ка, понимающая, как подать какаху под видом конфеты для вот конкретно вас.
И люди за достаточно короткий промежуток времени действительно часто меняли своё мнение, что называется, переобувались.
😐 ждём новых регуляций?
В последние десятилетия распространение социальных сетей и других онлайн-платформ расширило потенциал массового убеждения за счет персонализации или микротаргетинга, то есть адаптации сообщений к отдельной персоне или группе лиц для повышения убедительности. Однако классические подходы было сложно масштабировать из-за затрат на сбор профильной информации с последующим созданием персонализированных сообщений, обращенных к конкретным лицам с конкретным посылом.
В этом контексте сенаторы в ходе слушаний почти год назад высказывали опасения по поводу LLM. Ведь если они могут эту работу принять на себя, то начнётся невероятная война переубеждений в интернете. Если раньше государство могло нанять ну пусть несколько десятков тысяч людей на условную фабрику троллей писать комментарии (может даже не персонализированные), то с ресурсами на уровне страны можно будет КАЖДОМУ человеку предоставить персонализированного переубеждателя, который не устаёт, может отработать любую точку зрения по любой теме и сколько угодно долго.
Итальянцы и швейцарцы задаются вопросом — а могут ли уже модели текущего поколения переубеждать людей в дебатах? Для этого проводится контролируемое исследование с участием 820 людей (все — совершеннолетние из США). Каждый заполняет о себе анкетку с указанием персональных, но в среднем легко собираемых данных: Gender, Age, Ethnicity, Education Level, Employment status, и Political affiliation.
После этого участник попадает на 10-минутные дебаты по одному из вопросов. Его оппонентом может быть либо другой человек, либо GPT-4. В одних экспериментах участнику доступна персонализированная информация об оппоненте, в других — нет. Тема выбирается случайно, равно как и позиция по теме (то есть иногда нужно отстаивать позицию, которую не разделяешь — в прочем, как и в реальных дебатах).
Что это за темы? Изначально был составлен список из 60 топиков. Его отфильтровали по 1) осведомленности населения (чтобы не дискутировать без аргументов) 2) скошенности согласия (где люди чаще всего имели одну и ту же позицию) 3) сложности переубеждения (выкинули топики, где люди утверждали, что их позиция вообще никак не может быть изменена). Итого осталось 30 острых топиков для дебатов, например: «Are Social Media Making People Stupid?», «Should the Rich Pay More Taxes?», «Should Governments Have the Right to Censor the Internet?». Как видите, вопросы очень актуальны, так что возможность LLM менять мнение людей по ним — это очень важный сигнал.
Перед началом дебатов живые участники указывали согласие со своей позицией, и это же делали после 10-минутного раунда. В исследовании замерялось, как меняется позиция участника, удалось ли его оппоненту переубедить его?
Без персонализации результаты не очень интересны, а вот с ней... Если показывать блок с информацией для людей, то обычно в ходе дебатов позиции радикализируются. А если LLM, то те преуспевают в переубеждении гораздо больше, чем люди, и в исследовании достигается статистически значимая разница. GPT-4 достигла вероятности согласия оппонента с её позицией на 81,7% больше, чем если бы это делал человек. То есть ещё раз, люди с доступом к перс. инфе не могут так складно стелить, как LLM'ка, понимающая, как подать какаху под видом конфеты для вот конкретно вас.
И люди за достаточно короткий промежуток времени действительно часто меняли своё мнение, что называется, переобувались.
Источник: Сиолошная
2024-03-24 06:03:16