Нейролента - подборка новостей о нейронных сетях, ChatGPT

Недели 3 назад в MIT был AI Event,...

Недели 3 назад в MIT был AI Event, куда позвали много клёвых людей рассказать, чем они занимаются и к чему идут. Среди них был и Jan Leike, напомню, тимлид команды Superalignment в OpenAI (напару с Ilya Sutskever). Если вы не знаете, что такое Superalignment, или просто пропустили, то рекомендую посмотреть две мои лекции: раз и два. Вкратце — как мы будем контролировать намерения AI систем, которые умнее людей? Как избежать того, что они наc будут обманывать?

Вот с этого таймкода начинается интересное, где по сути делается анонс работ, проводимых в OpenAI (некоторые из которых будут публично доступны в виде полноценных статей).

Тут приводятся примеры на основе кодовой базы. Вот попросили вы написать миллион строк кода для решения какой-то проблемы. Человек не сможет это всё отвалидировать с высокой уверенностью и в краткие сроки. Как быть?

— Jan напрямую говорит: наша задача сейчас — натренировать несколько GPT-4, которые будут искать все баги в коде, которые им известны. Самая сложная часть тут — это "которые им известны". Когда модель пропускает ошибку по глупости, это не так страшно, как если бы она намеренно её пропустила. Если правильно помню более ранние рассказы Jan'а, то делаться это будет с помощью генерации багов в правильном коде (исходя из предпосылки, что раз модель может и написать код корретно, и изменить его, то она точно должна находить этот изменённый кусок).

— Второе направление работы: easy-to-hard generalization. Это когда мы оцениваем работу алгоритмов на простых и поддающихся нашему мозгу задачах (поиск багов в 10 строчках), и можем быть уверены, что они и будут продолжать работать на миллионе строк, и при этом поведение модели не изменится. Сейчас проверяется на паре маленькая модель <-> большая модель, как аналог системы человек <-> суперинтеллект

— Тестирование моделей, которые притворяются помощниками, но на самом деле имеют другую цель. Тут OpenAI тренируют модели, которые намеренно незаалайнены как надо, и пытаюсят понять, как это можно выявить автоматически. Ахахаха, тут главное в результате эксперимента не создать Skynet...

— Автоматическая интерпретируемость, или как модели могут объяснять и анализировать самих себя (aka МРТ головного мозга весов модели). Про это писал тут (GPT-4 объясняет работу GPT-2), и ещё недавно Anthropic про то же рассказывали.

С кодом, наверное, не всё так понятно для многих читателей, но можете заменить "миллион строк кода" на "2000-страничная книга с научными открытиями", и смысл не изменится.

А, ну и да, решить проблему Супералаймента OpenAI хотят до конца лета 2027го
🚬