Нейролента - подборка новостей о нейронных сетях, ChatGPT

Свежий подкаст Dario Amodei (CEO Anthropic, один из...

Свежий подкаст Dario Amodei (CEO Anthropic, один из главных конкурентов OpenAI) для NYT
(подкаст)(транскрипт)

Название подкаста было многообещающим («What if Dario Amodei Is Right About A.I.?»), но в топик, к сожалению, не так глубоко ушли. Выписал для себя несколько интересных тезисов, плюс, добавил свои мысли:

— На обучение моделей текущего поколения тратится $100M, мб +- 2 раза. Уже сейчас тренируются модели, обучение которых будет стоить $1B. Из этой информации выходит, что 1) скорее всего Claude 3 Opus — не миллиардная моделька 2) в конце 24-го — начале 25-го ждём бенгеров. А ещё это описание полностью бьётся с тем, что он говорил полгода назад. Всё по графику, короче.
— при этом прогноз на будущее он поправил: теперь в 2025-2026м году он предвидит обучение моделей стоимостью $5-10B — и это всё ещё до запуска суперкомпьютера OpenAI x Microsoft за 100 миллиардов!
— пока что на этот и следующий год, по его оценке, вычислительных мощностей его компании хватит, а вот после этого уже не ясно, и главное тут - сможет ли адаптироваться индустрия полупроводников.
— с точки зрения навыков модели, Dario предвидит наибольший рост метрик в тех задачах, где легко и быстро получить обратную связь. Программирование и математика под это определение попадают — в обоих можно быстро удостовериться, что ответ правильный, а заодно покритиковать решение. Взаимодействие с реальным миром - куда сложнее (вероятно, самое сложное).
— на сложении двадцатизначных чисел у Claude 3 качество примерно 99.9% (без внешних инструментов типа калькулятора или кода). Но если проверить данные, на которых обучается модель, то там качество сильно меньше. Это как будто бы играет на руку гипотезе, что модели уже могут производить более качественные данные, чем те, на которых они были обучены. Я к сожалению потерял ссылку, но видел статью с экспериментом, где модель учат на 100% неправильных примерах, и тем не менее её качество на новых примерах отлично от нуля. То есть по полностью неправильному она смогла начать хоть что-то решать
— соответственно, эти два тезиса объединяются в гармоничную картинку мира «давайте модели будут тренировать другие модели», особенно в задачках, где понятно, как оценивать ответ.
— Про то, как модель достигает хорошего качества в сложении чисел: Dario спекулирует, что все «правды» связаны в одну большую паутину мира, и держатся друг за друга. А каждая ложь, ошибка и неправда — она своя, особенная, и выбиается из этого. Согласно исследованиям, мы знаем, что модели знают, когда они врут/пишут неправду (это не означает, что они обманывают нас намеренно). Им пришлось научиться в этом разбираться во время обучения, чтобы понимать, делать ли предсказания с ошибкой или контекст требует чёткости. Это напомнило мне о недавней статье, где показывали, что если модели во время обучения показывать домен сайта, откуда взят текст, то качество работы повысится — потому что она, видимо, разбирается, что хрень а что полезно, и меньше обращает внимания на мусор. Вывод: каждый делает сам для себя
🤷‍♂️


Дальше обсуждается тема рисков AI в контексте дальнейшего развития, ждите следующий пост!