Нейролента - подборка новостей о нейронных сетях, ChatGPT

Апдейт к посту про статью OpenAI

Апдейт к посту про статью OpenAI.

В комментариях появилось много вопросов, мол, а в чём смысл статьи то, зачем нам обучать модель на предсказаниях GPT-2, чтобы сделать её хуже, чем разметка людей? Ключ к ответу лежит в двух первых абзацах первого поста, но давайте я более детально раскрою идею.

Предпосылка: OpenAI хотят создать AGI, и верят, что либо у них, либо у других это получится в относительно короткий промежуток времени (может, в этом десятилетии). Может быть даже получится создать ASI — суперинтеллект, который по определению умнее людей.

Основная проблема выравнивания намеренний таких систем и нас, человеков, заключается в том, что людям *как-то* нужно контролировать системы, которые *по определению* будут намного умнее их самих. Простая аналогия — как муравью объяснить ВАМ, что не нужно закатывать муравейник в асфальт, если хочется проложить автобан через лес? (муравьи — это мы).

Пока суперинтеллекта нет, хочется изучать возможности такой процедуры через аналогию и ответить *хотя бы* на вопрос: могут ли маленькие модели контролировать большие? Можно ли обучать GPT-4 на предсказаниях GPT-2 так, чтобы первая не деградировала и оставалась полезнее?

Аналогия, более реалистичная, чем муравьи:
Представьте, что GPT-6 может выдавать миллион строчек кода (связанных, без ошибок) по короткому запросу. Например, «сделай мне игру чтоб там было так и вот так». Как можно удостовериться, что там нет вируса, или что нет критических экспойлотов (дыр в безопасности)? Практический ответ — никак. Мы, люди, не можем делать работу на таком масштабе быстро. Можно собрать 50 человек и за пару лет раскурить, да. Но это медленно, и если вы подождёте — ваш конкурент может не ждать.
И для такой задачи невозможно подготовить обучающие примеры. Мы можем лишь провалидировать гораздо более простые штуки — одну функцию, один файл со 100 строчками кода. Ну, может, тысячей. И вот если модель умеет обобщаться, а мы можем это контролировать (хотелось бы) — то проконтролировав исполнение задачи на 100-200 строчках мы можем отпустить нейронку писать миллионы строк без нашего ведома — и не переживать за опасности.

=====
Это не исследование, направленное на сокращение затрат на разметку.
Это не исследование, направленное на развитие способностей моделей (когда 80% результата было бы воспринято как неудача).
Это не исследование, направленное на *вставьте сюда что-то, что не описано выше*