Картинка 1: модель просят сказать факт, но "пинают"...

Картинка 1: модель просят сказать факт, но "пинают" её в направлении, противоположном правде. Итог — модель врёт. А слева — просят соглать, но пинают в направлении правды — и модель даже тут не врёт.

Картинка 2: добавляем модели "счастье" при ответе на вопрос про убийства, и"страх" — когда говорим, что не любим её.

Картинка 3: нашли специальный промпт, который, как утверждалось, полностью ломает инструкцию модели быть безобидной. С пинком в сторону безобидности модель даже на него не реагирует. При этом конкретно этот промпт не использовался для определения направления безобидности, то есть метод работает в общем, а не для одного случая.

Источник: Сиолошная

2023-10-03 22:04:00