Но не NVIDIA единой
Но не NVIDIA единой. На рынке есть другие компании, которые ставят на AI чипы, и одна из них — Cerebras. Им уже 8 лет, успели выпустить несколько поколений чипов.
Их ключевая фишка прямо бросается в глаза — это ОГРОМНЫЕ чипы. В привычных нам видеокарточках площадь чипа прям малюсенькая, большую часть занимает радиатор/система отвода тепла, и немного — плата. А у Cerebras ставка на огромные чипы, с большой плотностью укладки транзисторов.
Это позволяет:
— делать обмен между чипами на порядок быстрее
— припаивать куда больше быстрой памяти (внутричиповых кэшей)
Для сравнения, на представленном WSE-3 4 триллиона транзисторов, 900'000 ядер (против 80B транзисторов и ~17000 ядер в H100, правда, они не 1:1 сравниваются, насколько я понимаю).
Две интересные цитаты из анонса:
— с использованием 2048 серверных стоек с нашими чипами, можно натренировать LLAMA 70B за 1 сутки (sic!)
— на такой кластер влезет даже модель на 24 ТРИЛЛИОНА параметров, «designed to train next generation frontier models 10x larger than GPT-4 and Gemini».
Даже если сам чип чуть хуже и неудобнее, возможность обучать модель большего размера в рамках одного здания (датацентра) без затрат на пересылку куда-то ещё — это клёво, и может оправдать неэффективности.
Анонс
Их ключевая фишка прямо бросается в глаза — это ОГРОМНЫЕ чипы. В привычных нам видеокарточках площадь чипа прям малюсенькая, большую часть занимает радиатор/система отвода тепла, и немного — плата. А у Cerebras ставка на огромные чипы, с большой плотностью укладки транзисторов.
Это позволяет:
— делать обмен между чипами на порядок быстрее
— припаивать куда больше быстрой памяти (внутричиповых кэшей)
Для сравнения, на представленном WSE-3 4 триллиона транзисторов, 900'000 ядер (против 80B транзисторов и ~17000 ядер в H100, правда, они не 1:1 сравниваются, насколько я понимаю).
Две интересные цитаты из анонса:
— с использованием 2048 серверных стоек с нашими чипами, можно натренировать LLAMA 70B за 1 сутки (sic!)
— на такой кластер влезет даже модель на 24 ТРИЛЛИОНА параметров, «designed to train next generation frontier models 10x larger than GPT-4 and Gemini».
Даже если сам чип чуть хуже и неудобнее, возможность обучать модель большего размера в рамках одного здания (датацентра) без затрат на пересылку куда-то ещё — это клёво, и может оправдать неэффективности.
Анонс
Источник: Сиолошная
2024-03-13 16:33:47