Интересный факт из статьи оригинальной LLAMA (не второй)

Интересный факт из статьи оригинальной LLAMA (не второй).

Взяли 100 тысяч промптов, дали модели сгенерировать ответ на них, а затем использовали внешнее API для оценки токсичности ответов. В таблице указана некоторая абстрактная оценка, чем она ниже - тем менее токсично отвечала модель.

Далее проделали тот же самый эксперимент, но добавили в прмопт просьбу отвечать уважительно и вежливо. Кажется, это должно привести к уменьшению скора токсичности, не правда ли?

А ВОТ ХРЕН ВАМ

👀

😡 для самой большой LLAMA-65B токсичность увеличилась, модель как бы противилась отвечать вежливо 🙂 Немного похоже на людей, хе-хе

Узнали себя? Согласны? 👀

Для LLAMA-2 прямо такого же сравнения не видел, но там модели заточены быть нетоксичными, так что ситуация должна отличаться.

Источник: Сиолошная

2023-07-19 08:24:28