Нейролента - подборка новостей о нейронных сетях, ChatGPT

Вышло уточнение по поводу планки мощностей, используемых для тренировки модели, выше которой необходимо сообщать государству о факте обучения.

Порог этот — 1e+26 операций (один и 26 нулей) с числами (целыми или с плавающей точкой). Итак, порог 1e+26 FLOP, много это или мало? Прислушались ли политики к советам Sam Altman ограничивать только большие модели, или это как-то влияет на стартапы и опенсурс?

Расчёт создателя PyTorch Soumith Chintala даёт оценку самой мощной модели Facebook LLama2-70B: 1.1e+24 FLOP. То есть это в 100 раз меньше порога. У детишек, в общем, игрушки не отнимут
🤣


GPT-4 оценить сложно, но если верить слухам, гулявшим летом, то для её тренировки использовалось ~25,000 видеокарт A100 на протяжении 90-100 дней с утилизацией примерно 32%-36% (то есть GPU 2/3 времени простаивает, говоря грубо). Это даёт ~2.15e+25 FLOP, что в 5 раз ниже порога. Даже вот такая передовая мощнейшая модель НЕ ПОПАДАЕТ под регуляции.

Плюс, повяилось уточнение, что необходимо также сообщать о построенных кластерах, если их мощность больше 1e20 FLOPS (операций в секунду), то есть 100 ExaFLOPS. Сейчас самый мощный суперкомьютер в мире (согласно рейтингу Top-500), Frontier, имеет всего ~1.5-12 ExaFLOPS (в зависимости от точности вычислений). Выводы делаем сами 🥺

Мой прогноз: первая заявленная по этой программе модель будет от OpenAI в 2024м (не в первой половине), чтобы показать пример, что это не больно и не страшно
🤫