Нейролента - подборка новостей о нейронных сетях, ChatGPT

Как

Как Спайс занимает центральное место в мире Дюны, так и вычислительный мощности (в речи — compute, компьют) играют ключевую роль для AI — наравне с данными.

У нас уже как минимум пару лет есть эмпирический (то есть выявленный экспериментально) закон, который позволяет предсказать прокси-качество модели ещё до её тренировки. Чем больше данных положишь, чем больше будет модель и чем дольше будешь учить — тем лучше. Фишка в том, что это единственный гарантированный способ улучшений (поправьте, если не прав). Всё остальное носит исследовательский характер и может не взлететь — даже если идея кажется суперперспективной и передовой. А ведь большие модели ещё надо применять, что тоже требует ресурсов! Поэтому для компаний, желающих оставаться на плаву в AI и тем более догонять лидеров рынка в лице OpenAI, наращивание датацентров впрок имеет огромный, можно сказать стратегический смысл.

Давайте о цифрах. GPT-4, закончившая тренировку в августе 2022го (полтора года назад!), по слухам обучалась на ~25,000 GPU A100 на протяжении 90-100 дней. Если переводить в количество вычислений, то это примерно 2.15E+25 FLOP (2.15 умноженное на единицу с 25 нулями). Грубая оценка в $1/час за 1 видеокарту даёт стоимость тренировки $63m, но вероятно, что для OpenAI цена была ниже. На обучение самой большой LLAMA-2 на 70B параметров META затратила на обучение ~1.1e+24 FLOP — в 20 раз меньше, так что есть куда расти.

Однако время идёт, технологии развиваются, и всё большее количество компаний переезжает на видеокарты H100 — последнее поколение железок от Nvidia, которое в 2-3 раза мощнее предшественницы A100. В тренировке таких больших моделей есть много неэффективностей, связанных с масштабом (нужно же как-то оркестрировать и синхронизировать 25000 видеокарт), поэтому возможность обучить такую же модель на меньшем объеме карт сразу же подразумевает улучшение эффективности использования ресурсов. Ту же GPT-4 можно было бы обучить на ~8,192 видеокарт H100 за 55 дней. Запомнили: 8 тысяч видеокарт на 2 месяца.

Это был контекст новости, а теперь сама новость: на неделе Mark Zuckerberg анонсировал, что META собирается заиметь 350'000 видеокарт H100 до конца года, и суммарно иметь мощности, эквивалентные 600'000 H100. Мноооооого компьюта. Можно будет тренировать LLAMA-4 сразу как конкурента GPT-5. Маловероятно, что это коснётся LLAMA-3, которая уже тренируется и скоро должна выйти (по слухам, в конце февраля), но вот следующая модель должна сделать внушительный скачок.

Эти цифры действительно впечатляющие — в прошлом году я писал, что Tesla начали делать свои чипы и строить на них суперкомпьютер, и был прогноз, что к октябрю 2024го у них будет эквивалент 300'000 A100 (не H100! то есть гораздо меньше!).

Кажется, что это какие-то невероятные цифры для обучения одной модели — можно предположить, что тренировка будет происходить в рамках одного датацентра, в котором ну от силы пусть будет 50-75 тысяч видеокарт (оценка с потолка, но приближенная к реальности. Если есть оценка лучше — пишите в комментарии). Однако из интервью с сотрудником DeepMind, которое мы делали с Валерой @cryptovalerii, и из статьи про Google Gemini стало известно, что модели уже тренируют на нескольких датацентрах за раз! Так что это не должно быть преградой, и вероятно в конце 2024-начале 2025го мы увидим модели, тренируемые на >100'000 видеокарт (аналог ~350-400k A100, использовавшихся для GPT-4).

Как думаете, Deep Learning is hitting a Wall (в очередной, сотый раз)? Готовы ставить против моделей следующих поколений?