Про беспрецедентный масштаб

Про беспрецедентный масштаб. Сейчас принято считать, что при увеличении модели в N раз нужно также увеличивать количество данных в N раз, то есть суммарные затраты по вычислительным мощностям растут как N^2. Формула не точная, прикидка примерная, но для спекуляций ниже сойдет.

Если верить слухам, то GPT-4 тренировали на 25'000 A100 x 90-100 дней. Мой давний приятель Евгений, автор канала @j_links, посчитал, что если взять самые современные видеокарты Nvidia H100, то 40'000 H100 с утилизацией (доля времени, которое карта тратит на полезную работу) уровня последнего бенчмарка mlperf, потребуется 25 дней для обучения такой же модели (для технарей — в FP16). Тут важно понимать, что эта прикидка даёт оценку сверху — потому что вот так просто взять и увеличить количество карт без уменьшения утилизации нельзя. Понятно, что инженеры не сидят на месте и улучшают всё что только можно улучшать, но и они — не маги.

Если просто посчитать, то получится прирост производительности x2.5 на карту, но будем очень щедры, сделаем скидку на то, что можно использовать разные типы данных (например, FP8), то сё, пусть одна карта нового поколения будет x3.5 более производительна. Опять же, обратите внимание, что это скорее верхняя оценка.

Далее — сколько видеокарт можно запустить в одну тренировку? Как мы знаем по статье о Gemini от Google DeepMind, и как подтвердил инженер инфраструктуры на нашем с Валерой интервью, сейчас обучение уже делается на нескольких датацентрах. Сколько GPU в каждом ДЦ — загадка, и я не буду приводить полный лог рассуждений, но кажется, что цифра не больше 60'000 GPU (для сравнения самый мощный публично известный суперкомпьютер Frontier имеет 36'992 GPU). Сколько ДЦ можно подключить в сеть тренировки, чтобы это не убивало утилизацию видеокарт из-за необходимости долгой синхронизации — загадка. Моё наивное предположение, что для одной тренировки не будет использоваться больше 100'000 карт, ну моооооооожет быть 125'000. Это просто охренеть сколько — в x4(5) раз больше, чем для GPT-4.

Ну и самый простой способ накинуть вычислений — это увеличить длительность. Давайте будем тренировать не 100 дней, а 150 — ещё x1.5

Итого мы можем увеличить мощности:
-----------------------------------------
x3.5 за счет типа видеокарт (A100 -> H100, с допущениями об утилизации)
x4 за счет количества видеокарт (25'000 -> 100'000)
x1.5 за счет длительности обучения (100 дней -> 150 дней)
x(неизвестно, но не более 1.2) за счёт разных тренировочных трюков (дальше не учитываем)
-----------------------------------------
Итого получаем увеличение в 3.5 x 4 x 1.5 = 21 раз. Или в 35 (3.5 x 5 x 2). Это примерно попадает в цифры Dario Amodei («...обучение моделей текущего поколения стоит $50-150M...модели следующего поколения будут стоить $1B» — разница в 10-20 раз, но и за доллар теперь мощности в 2-3 раза больше).

То есть модель будет всего в sqrt(21)-sqrt(35) или 4.5-5.9 раз больше. Изначально, когда садился считать, думал, что будет скачок в 10 раз, но как не старался натянуть сову на глобус — увеличить мощности в 100 раз хотя бы в теории не придумал как

🥺

В комментарии приглашаются шарящие за скейлинг люди обсудить адекватность прикидок и их собственные оценки

Источник: Сиолошная

2024-01-28 08:10:30