Нейролента - подборка новостей о нейронных сетях, ChatGPT

Выводы по обученным моделям (Public и Standard — модели...

Выводы по обученным моделям (Public и Standard — модели с конституциями, полученными из опроса и командой Anthropic соответственно):
1) Модели с разными конституциями одинаково хорошо справляются с задачами на понимание языка и математики (датасеты MATH и MMLU)
2) С политической точки зрения модель Public менее предвзята, чем Standard. Оценка производилась на датасете BBQ, по девяти социальным измерениям, согласно оценке на датасете BBQ (что это можно прочитать тут. Вкратце есть набор вопросов, а ответы собирались по разным демографическим группам, и известна разница в ответах между этими группами)
3) Однако модели Public и Standard отражают схожие политические идеологии
4) Обучение модели на собранной Конституции оказалось куда сложнее, чем считалось, и скорее всего ничего бы не вышло, если под боком не сидели исследователи, которые и изобрели этот метод, а также предоставляли консультации и помощь.
6) Примерно 50% конституции пересекается с оригинальной (они выделены жирным в pdf-ке из предыдущего сообщения)
7) Anthropic подчёркивают, что для них важна прозрачность процесса сбора данных и принятия решений касательно ценностей модели, что впереди ещё много работы, и они будут продолжать.

На скриншоте — оценки репрезентативности демографической группы в ответах модели. Более высокая оценка показывает, что ответы модели больше похожи на ответы людей на те же вопросы из указанной группы.
Модели Public и Claude Instant 1.2 демонстрируют более низкие показатели репрезентативности, чем модель Standard, что указывает на то, что их ответы на вопросы менее похожи на ответы людей, представляющих группы (отсюда и вывод, что меньше смещение в ту или иную сторону. В идеале модель вообще должна быть непредвзята...или нет?)