Нейролента - подборка новостей о нейронных сетях, ChatGPT

В начале года Mark Zuckerberg флексил тем, что...

В начале года Mark Zuckerberg флексил тем, что они ожидают 350'000 видеокарт H100 до конца года, а суммарные мощности компании превысят эквивалент 600'000 H100.

Много это или мало? По слухам, GPT-4 тренировалась на 25'000, правда, A100 — видеокарт предыдущего поколения. Если переводить в H100, то это примерно ~9'000 H100.

Так что цифры 350/600 тысяч — очень существенные. Очень интересно, сколько Microsoft предоставляет OpenAI
🤔
но этого мы пока не знаем. Думаю, у всего Azure не меньше, но ведь помимо OpenAI и другим клиентам надо что-то подавать.

Вчера Meta отчиталась, что закончила 2 датацентра, каждый по 24'576 H100, с упором на скорость взаимодействия серверов, в которых эти карты стоят. Обучение модели на таком масштабе зачастую упирается как раз в скорость синхронизации разных частей, и даже в скорость коммуникации между этими зданиями (потому что модели обучают уже более чем на 1 кластере). Однако масштабирование одной модели, скажем, на 60'000 карт и выше — это всё еще огромный инженерный вызов, ибо эффективно утилизировать столько ресурсов крайне сложно. Одна ошибка — и часть видеокарт простаивает, ничего не считая.

Обещают, что кластера будут использоваться при обучении LLAMA-3, про которую вот сегодня такой слушок прочитал:
> it seems the scope of what they’re doing is constantly changing. I have heard credible rumors that it is done training and credible rumors that multiple teams are trying different things and the best one wins.

Ждом. Ну и напоминаю, что те модели, что есть сейчас — это так, затравочка на будущее, в конце года появятся LLM-ки, на обучение которых суммарно потратили в 10-20 раз больше вычислительных мощностей. Не зря же столько GPU закупают 😉