Начинается обсуждение с RSP,

Начинается обсуждение с RSP, Responsible Scaling Policy. Краткое напоминание: RSP определяет «Уровни безопасности искусственного интеллекта» (AI Safety Levels, ASL) для работы с потенциальными катастрофическиим рисками, которые по формату аналогичны стандартам уровней биобезопасности (BSL) правительства США для обращения с опасными биологическими материалами.

Сейчас модели находятся на уровне ASL 2. Они не несут какого-то риска и почти не предоставляют информации, которую нельзя было бы найти, вооружившись поисковиком.

ASL 3 завязан на увеличение риска от биологического и кибер-оружия. Такой риск должен быть существенно (без численной оценки) больше, чем до появления такой модели. Сейчас Anthropic работают с бывшими сотрудниками правительственной программы по биозащите для проработки точных критериев. Например, это может быть «использование модели увеличивает риск на 20%» (оценка через безопасное тестирование — как в их предыдущем исследовании, разбор тут).

Уровень ASL 4 пока слабо проработан, но:
— с точки зрения злоупотреблений такая система позволит расширить свои возможности уже на уровне целого государства (что значительно сложнее, чем помочь одному гуглящему человеку)
— с точки зрения автономности, такие системы должны быть крайне близки к способности воспроизводиться и выживать в дикой среде. Говоря иначе, если модели дать доступ в интерент — она сама себя скопирует на десятки носителей и будет зарабатывать деньги для своего поддержания. Звучит страшно, хорошо, что модели пока так не могут (вот целое исследование)

И самое интересное. Давайте разыграем сценку.
Ведущий: и какая у вас оценка появления ASL3/4?
Dario Amodei: я думаю, что ASL 3 может легко случиться уже в этом или следующем году. Я думаю, что ASL 4...
Ведущий: Господи...
Dario: не-не, я говорю тебе. Я верю в экспоненциальное развитие текущих моделей. Я думаю, ASL 4 может случиться хоть где от 2025-го до 2028-го.
Ведущий: это очень быстро...
Dario: да-да, я говорю об очень ближайшем будущем. Это не про историю на 50 лет вперёд.

Смешно? нет? а ровно это произошло на подкасте (вот ссылка).

Политика Anthropic утверждает набор тестов и критерии их прохождения для того, чтобы определить уровень системы. Схожие политики есть у OpenAI и Google. В случае достижения нового уровня компании обязуются: a) остановить разработку для обсуждения дальнейшего развития, оценки уровня угрозы б) публично анонсировать это.

У ведущего, как и у многих читателей, возникает вопрос - а остановить это вот как? Как же классический аргумент «А что Китай?». Dario говорит:
— Если, например, нам надо будет остановиться на год в 2027 году, я думаю, что это осуществимо. Если это похоже на то, что нам нужно остановить всю индустрию на 10 лет, это будет очень сложно, потому что модели будут создаваться и в других странах. Люди будем нарушать законы. Экономическое давление станет огромным.
(под «остановиться» здесь подразумевается остановка исследований по увеличению набора навыков модели для того, чтобы запустить исследования по контролю и безопасности)

Кажется, что это очень сложно, нужно будет вмешиваться государству, а компании каким-то образом должны будут начать делиться моделями и деталями обучения. Нужна кооперация. Dario считает, что такой процесс возможен, как только будут продемонстрированы реальные риски уровня ASL 4 (или некоторые отдельные с ASL 3). Это заставит всех встрепенуться и начать действовать. Интересно, какие примеры из прошлого приводятся для описания ситуации:
«Если вы посмотрите на исторические периоды, такие как Первая или Вторая мировые войны, воля промышленности может быть направлена в сторону работы на государство. Бизнесы и предпринимателей можно заставить делать вещи, которые не обязательно принесут прибыль в краткосрочной перспективе, потому что они понимают, что возникла чрезвычайная ситуация. Сейчас у нас нет чрезвычайной ситуации.»

😨

😳 и чего тогда ждать нам? (Amodei спойлерит, что хочет бескровной демонстарции, когда просто в рамках безопасного эксперимента показывается, на что способна модель)

Источник: Сиолошная

2024-04-14 13:08:23