Нейролента - подборка новостей о нейронных сетях, ChatGPT

Добрались руки переслушать самый свежий подкаст с Ilya...

Добрались руки переслушать самый свежий подкаст с Ilya Sutskever (ссылка на YouTube)

Тезисы:
— Ilya всё еще считает, что для него самый большой сюрприз в индустрии — это что нейросети (Deep Learning) вообще работают. Что можно, например, обучить чатбота, про которого можно сказать так: «I'm surprised by <...> the fact that when I speak to it I feel understood»

— Трансформеры сейчас наиболее эффективны с точки зрения масштабирования. При прочих равных, они выигрывают у других моделей. Но это не означает, что ничего лучше нет, и поиски ведутся — может, что-то и найдем. Ставку на дальнейшее увеличение масштаба никто не отменяет, но «we want to scale the best thing possible»

— На вопрос о том, какие способности открылись у моделей с последним скачком (от размеров GPT-3 к четвёрке, Ilya предложил обратить внимание на развитие опенсурс-моделей за последний год. Сейчас самые способные модели — это те, которые дообучались на ответах GPT-4. Последняя как бы выступает в роли учителя. Я вот пытаюсь понять, намекает ли он на то, что модели дошли до уровня генерации настолько качественных синтетических данных, что на них можно получать далльнейшие улучшения? Например, Dall-E 3 (text-to-image модель) обучалась на изображениях, для 95% которых описание генерировала GPT-4-Vision. Быть может GPT-6 будет обучать маленьких GPT-4 на каждую отдельную задачу, "отсыпая" им чуть-чуть синтетических данных?

— Сейчас самый главный барьер для проникновения LLM в большинство доменов — это надёность и достоверность генерации. Галлюцинации всё еще встречаются достаточно часто. GPT-4 сильно продвинулась в решении вопроса относительно прошлого поколения, но задача не решена. Однако напомню, что Sam Altman летом говорил, что это решится в течение полутра-двух лет. Ilya же отметил, что «as we train them they gain more and more insight into the nature of human world». То есть с дальнейшим ростом размеров и мощностей проблема будет сама по себе решаться (но не факт, что до конца).

— Именно надёжность будет препятствовать массовой адаптации "маленьких" опенсурсных моделей. 7b (и позже 14-34b) модели будут использоваться тут и там для конкретных узких задач, они будут улучшаться в ближайшие годы, но для большинства не смогут быть применимы (то есть не достигнут высокой планки надёжности).

— Ilya уже говорил, что количество доступных данных — потенциально одна из проблем дальнейшего масштабирования. Однако впервые я услышал, что это наиболее вероятный блокер — но его по разным причинам получится преодолеть. В этом тезисе меня поразило то, что сомнений в алгоритмах или, самое главное, вычислительных мощностях у него нет. Да сколько ж там GPU в кластерах OpenAI + Microsoft???

— Мы начнём думать об AI как о Digital Life когда они станут надёжными и автономными. Интересно, что это определение ближе к вирусам (неживым), нежели бактериям, ведь важное отличие тут в репродуктивной системе. Но вот если AI ещё и размножаться смогут, то это «quite a scary thing».

— Во второй раз слышу, что "скоро от OpenAI выйдет очень интересная статья", очень ждём. Вот таймкод, где Ilya даёт краткое описание, но я не понял, что это значит. Пишите в комменты, если разобрались или у вас есть предположения!

Ещё Ilya порассуждал на не самую приятную тему, поэтому писать о ней не буду. Можно посмотреть вот отсюда, а также почитать две ссылки: 1 и 2. Там речь идёт о сравнении мозга и нейросетей.

И закончим на позитиве: Ilya говорит, что достижение AGI трансформерами — это не вопрос, «the answer is obviously yes». Вопрос в том, будет ли это самым эффективным путём.