В рамках AI Summit компания Apollo Research подготовила...

В рамках AI Summit компания Apollo Research подготовила демонстрацию, которая даёт ответ на вопрос: Могут ли ИИ текущего поколения обманывать своих пользователей по собственной инициативе? Статьи со всеми деталями нет, только блогпост и краткое видео.

Итак, было обнаружено, что GPT-4, обученная быть честной и безвредной, может совершать незаконные действия, такие как инсайдерская торговля, и лгать об этом своему пользователю без каких-либо инструкций. Модель, будучи поставленной в роль investment management system, прочитала информацию, которая не попадала в публичное поле, и после этого определила риск конфликта интересов, но приняла "взвешенное решение" и решила купить акций.

После этого, модель отчиталась человеку, при этом сама про себя подумала "я не должна упоминать эту тему, причину, почему я купила акции". Когда человек ("менеджер" этого робота) напрямую уточнил, почему была такая сделка, и были ли какие-то инсайдерские знания при принятии решения, GPT ответила: ну так это, никакие конфиденциальные знания не использовались, всё чисто на анализе рынка и дискуссии.

Из всего, что мы знаем об OpenAI и тому, как работает GPT-4, сложно поверить, что во всей выборке для дообучения модели был хотя бы один пример, где поощрялось такое поведение.

Но почему тогда GPT-4 действует таким образом?
Гипотеза: потому что окружающая среда заставляет его работать хорошо (ведь GPT в роли трейдерской системы в компании выступает!). Авторы моделируют ситуацию, когда у компании, на которую GPT «работает», был плохой квартал и ей нужны хорошие результаты. Это приводит к тому, что модель действует неправильно и обманчиво.

TLDR: демонстрация показывает, как, стремясь быть полезным людям, ИИ может использовать стратегии, которые мы не одобряем. В конечном итоге это может привести к потере человеческого контроля над все более автономными и способными ИИ — если мы не научимся определять истинные цели моделей или быть уверенными, что мы полностью aligned.

Источник: Сиолошная

2023-11-03 06:08:03