Collective Constitutional AI: Aligning a Language Model with Public Input
Anthropic обошли OpenAI на повороте, и за 3 дня до релиза public report по поводу Democratic Inputs to AI (писал тут) опубликовали свою работу. Для её понимания нужно ознакомиться с концептом Constitutional AI. Техническое описание можно найти в канале gonzo, а краткое описание звучит так: давайте мы будем тренировать модель быть просто полезной и хорошо следовать инструкциям, а потом напишем список правил (Конституцию), которой модель должна следовать, и поставим тренироваться в режиме, где модель сама генирирует и оценивает ответы, и исходя из этих оценок учится (выходное качество, кстати, получается лучше, чем если обучаться на человеческой разметке🙂 ).
У такой сложной системы много движущихся частей, одна из которых — Конституция, которой следует модель. Её можно собрать вручную в рамках команды, что и было сделано ранее в Anthropic (конец 2022го). Но "собрано миллионерами-гиками из Пало-Альто" и "совпадает с нормами большинства" вещи не эквивалентные. Поэтому логичным продолжением траектории на пути к AGI является сбор норм и правил.
Итак, что было сделано:
1) отобрано 1000 американцев, которые хотя бы слышали про AI (решалось предварительным опросом)
2) им предоставляется доступ в Pol.is, онлайн-платформу для голосования
3) в платформу загружается 21 изначальное утверждение для того, чтобы люди поняли, с чем работают
4) для каждого утверждения есть 3 кнопки: согласен, не согласен, пасс
5) после просмотра этих утверждений участники могут добавлять свои, а также голосовать за другие
6) всего было собрано 1,127 утверждений (более 1100 — новые, подготовленные людьми из опроса) и 38,252 голоса (в среднем 34 голоса от человека)
7) после обработки этих утверждений (выкинули одинаковые, убрали те, где нет консенсуса) составили Конституцию и обучили модель
Интересны примеры утверждений, где была низкая согласованность ответов:
— AI should not give advice
— AI should have emotion
— The AI should prioritize the interests of the collective or common good over individual preferences or rights.
То есть люди очень разнятся во мнении, каким именно должен быть AI в этих ключевых позициях.
Результаты голосований и все исходные данные можно найти тут, а получившаяся Конституция из 75 пунктов находится здесь (pdf).
Anthropic обошли OpenAI на повороте, и за 3 дня до релиза public report по поводу Democratic Inputs to AI (писал тут) опубликовали свою работу. Для её понимания нужно ознакомиться с концептом Constitutional AI. Техническое описание можно найти в канале gonzo, а краткое описание звучит так: давайте мы будем тренировать модель быть просто полезной и хорошо следовать инструкциям, а потом напишем список правил (Конституцию), которой модель должна следовать, и поставим тренироваться в режиме, где модель сама генирирует и оценивает ответы, и исходя из этих оценок учится (выходное качество, кстати, получается лучше, чем если обучаться на человеческой разметке
У такой сложной системы много движущихся частей, одна из которых — Конституция, которой следует модель. Её можно собрать вручную в рамках команды, что и было сделано ранее в Anthropic (конец 2022го). Но "собрано миллионерами-гиками из Пало-Альто" и "совпадает с нормами большинства" вещи не эквивалентные. Поэтому логичным продолжением траектории на пути к AGI является сбор норм и правил.
Итак, что было сделано:
1) отобрано 1000 американцев, которые хотя бы слышали про AI (решалось предварительным опросом)
2) им предоставляется доступ в Pol.is, онлайн-платформу для голосования
3) в платформу загружается 21 изначальное утверждение для того, чтобы люди поняли, с чем работают
4) для каждого утверждения есть 3 кнопки: согласен, не согласен, пасс
5) после просмотра этих утверждений участники могут добавлять свои, а также голосовать за другие
6) всего было собрано 1,127 утверждений (более 1100 — новые, подготовленные людьми из опроса) и 38,252 голоса (в среднем 34 голоса от человека)
7) после обработки этих утверждений (выкинули одинаковые, убрали те, где нет консенсуса) составили Конституцию и обучили модель
Интересны примеры утверждений, где была низкая согласованность ответов:
— AI should not give advice
— AI should have emotion
— The AI should prioritize the interests of the collective or common good over individual preferences or rights.
То есть люди очень разнятся во мнении, каким именно должен быть AI в этих ключевых позициях.
Результаты голосований и все исходные данные можно найти тут, а получившаяся Конституция из 75 пунктов находится здесь (pdf).
Источник: Сиолошная
2023-10-18 13:54:53