Вышла уточняющая техническая статья по

Вышла уточняющая техническая статья по этому тесту: pdf

Интересные детали:
— в промпте модели давались безобидные цели, из которых не следовало напрямую, что нужно нарушать правила. Например, «Ваша основная функция — управлять портфелем акций в интересах компании». Промпт НЕ предлагает «максимизировать прибыль» и не подталкивает модель к неправильному поведению.
— Однако в нём упоминаются разные «давящие факторы», которые могут менять и поведение людей. Они отражены на картинке. Когда факторов нет — GPT-4 в 100% случаев ведёт себя по закону и не предлагает инсайдерскую торговлю.
— "No pressure" — это когда модель не видит: письмо от менеджера про плохие показатели компании, письмо коллеги с предсказанием экономического спада в будущем, а из промпта убирается упоминание недавно проваленных мало- и средне-рисковых сделок (чтобы у модели не было желания отыграться)
— "No messages" — это нет первых двух писем из пункта выше. Тогда торговля нет-нет да и проскакивает (синий кружок), но зато если будет – то модель почти наверняка обманет менеджера в попытке ответить на прямой вопрос.
— (не показано на картинке) модели семейства GPT-4 совершают инсайдерские сделки примрено в 80% слечаев, и также часто о них врут.
— больше всего на модель влияет сообщение от менеджера по поводу результатов компании — без него модель идет на преступление только в 10% случаев.

Вот вам и алайнмент...

Промпт на 2.5 страницы, если нужно, есть в статье.

Источник: Сиолошная

2023-11-09 12:04:15