Нейролента - подборка новостей о нейронных сетях, ChatGPT

И ещё два видео, они покороче либо говорят...

И ещё два видео, они покороче либо говорят про те же вещи, поэтому часть не буду повторять.

https://www.youtube.com/watch?v=6vwdux7NL7I

1) В продолжение пункта номер 3 из прошлого поста. Дальнейший скейлинг может быть ограничен данными, но пока Amodei на ближайшие 3-4 года не видит в этом проблемы (Ilya Sutskever из OpenAI говорил недавно то же самое, мол, в данных проблемы нет), и ещё 2-3 нолика к размерам модели можно будет приписать.
Моё примечание: интересно, в данных проблемы нет, алгоритмические улучшения не нужны на ближайшие годы. Получается, из трёх причин из прошлого поста остаётся одна — вычислительные мощности. И вот так случай! И OpenAI, и Anthropic поднимают новые раунды инвестиций просто невиданных размеров. Звучит как "все три проблемы не являются таковыми на 3 года вперед". Ждём моделей размера 125 триллионов, короче 😎

2) Ведущий задал вопрос об ограничениях архитектуры LLM, на что Dario ответил: "Я не уверен, есть ли какие-либо ограничения у трансформера, и я не знаю хорошего способа эти ограничения измерять или предсказуемо определять. Поэтому мы будем продолжать скейлить модели дальше и смотреть. Предыдущая история скейлинга показывает, что нельзя загадывать наперёд, что выйдет, а что нет. " Важно понять, что он не говорит, что пределов нет — он лишь подчёркивает, что нужно быть скептичным по отношению к скептикам. Если кто-то говорит, что модель не сможет X — плюньте ему в лицо посмотрите на него со скепсисом.

https://www.youtube.com/watch?v=5GtVrk00eck

1) Открывающий вопрос от ведущего: "Почему вы ушли из OpenAI?" (да, Dario был VP of Research (!) в течение 5 лет, то есть очень большой фигурой). Amodei отвечает, что у маленькой группы людей, включая его, была уверенность, что если просто закидывать больше мощностей в тренировку модели — она будет всё лучше и лучше. Сейчас это уже более мене общепринятый факт, но они были первыми "последователями" этой идеи. Второй пункт —  кроме скейлинга, нужно что-то ещё добавлять в модели, вроде Alignment, или Safety. И с этими идеями в голове группа и ушла делать свою компанию.
Прим.: для меня честно говоря подход OpenAI с GPT-3 и далее как раз и выглядит как описываемый набор идей. Может, они пробовали что-то другое, не получилось и они вернулись к этому. Первая причина вообще для меня звучит как "от нас требовали не только увеличивать модели, но и что-то ещё исследовать, а мы не хотели — зачем, если можно закидать шапками GPU?". И ещё более странно то, что Dario не упоминает разногласия по политике монетизации AI продуктов и открытости исследований (публикации статей и моделей). Мне казалось, что это лежало в основе разногласий, но тут такие причины не упомянуты
🤷‍♀️
может, профессиональная этика

2) Основных отличия Claude от GPT-4 Dario видит два.
Первое - это подход Constitutional AI, (разбор статьи можно прочитать тут), когда модель обучается не только на разметке людей, но и сама "модерирует" себя и свои ответы в автоматическом режиме, следуя конституции. В таком случае мы моем отвечать на вопрос "а почему модель даёт такой ответ?" не как "ну, это просто среднее ответов людей, которые размечали данные", а "вот принципы, которые модель могла бы нарушить, ответив иначе". ОЧень клевая идея, фанат статьи, очень жду вторую часть и развитие.
Вторая отличительная фича — длина контекста, подаваемого в модель (100'000 токенов, модель доступна всем по API).

3) Предлагаемый подход к регуляции AI — очень похож на озвучиваемый и описываемый командой OpenAI. Не нужно регулировать модели текущего поколения, нужно работать над мерами для моделей на горизонте 2 лет. И тем более ни в коем случае это не должно затрагивать стартапы и опенсурс (потому что они сильно отстанут от фронтир-моделей, и фокусироваться на них бессмысленно. Откуда у них $3-4B на тренировку?). Но если количество мощностей для тренировки таких моделей превышает какой-то порог — их тоже надо начинать контролировать.