Нейролента - подборка новостей о нейронных сетях, ChatGPT

Вред от дискриминации и дезинформации виден уже сейчас

Вред от дискриминации и дезинформации виден уже сейчас. Другие риски тоже демонстрируют признаки появления. Важно адресовать и имеющиеся риски и предвещать новые.

Если бы продвинутые автономные системы появились сейчас, мы бы не знали ни как сделать их безопасными, ни как протестировать их на безопасность. А если бы даже и знали, то у правительств нет институтов для предотвращения злоупотреблений и внедрения безопасных практик. Авторы выступают за переориентацию R&D на безопасность и этику и за установление эффективного правительственного надзора.

Среди челленджей в R&D, которые не решатся созданием более способных систем ИИ: контроль и честность (oversight and honesty -- более продвинутые системы могут обхитрить тестирование, выдавая ложные, но убедительные ответы), робастность (в новых условиях при distribution shift или adversarial inputs), интерпретируемость (понимание работы), оценка рисков (возникают новые способности, которые трудно предсказать), появление новых челленджей (невиданные прежде failure modes).

Авторы предлагают аллоцировать минимум треть AI R&D бюджетов на безопасность и этику.

В контексте национальных институтов и международного управления нужно навязывать стандарты. Такие вещи есть в фарме, финансах и ядерной энергии, но не в ИИ. У стран и компаний сейчас есть стимулы для срезания углов за счёт безопасности. Подобно тому как производства сливают отходы в реки, компании могут пожинать плоды ИИ разработок, оставляя обществу разбираться с последствиями.

Национальным институтам нужна сильная техническая экспертиза и право действовать быстро. В международном поле нужны соглашения и партнёрства. Для защиты низкорисковых использований и академических исследований надо избежать бюрократических барьеров для малых и предсказуемых моделей. Наибольшее внимание нужно направить на фронтирные модели -- небольшое количество наиболее мощных систем, обучающихся на миллиардных суперкомпьютерах. Для эффективной регуляции правительствам нужна большая прозрачность разработок. Регуляторы должны требовать регистрацию моделей, защищать осведомителей внутри компаний, требовать репортинга инцидентов и мониторить разработку моделей и использование суперкомпьютеров (привет, KYC, скоро на AWS!). Регуляторам также нужен доступ к таким системам до их выкатывания в прод для оценки опасных способностей типа саморепликации, проникновения в другие системы, создание патогенов.

Для систем с опасными способностями нужна комбинация управляющих механизмов. Также разработчики фронтир-моделей должны юридически отвечать за вред своих систем, который можно было бы предотвратить. Это должно создать стимулы для инвестиций в безопасность. Для крайне способных систем возможно понадобится что-то ещё, включая правительственное лицензирование, возможность приостановки разработки в ответ на опасные способности, контроль доступа и меры информационной безопасности, устойчивые к state-level hackers.

Пока регуляций нет, компании должны незамедлительно сформулировать свои if-then обязательства в виде конкретных мер, которые они предпримут, если конкретные способности в их моделях пересекут красную черту. Эти меры должны быть детально описаны и независимо проверены.

Такие дела.

Выжимка тезисов собрана в отдельном Policy supplement (https://managing-ai-risks.com/policy_supplement.pdf).