— загадочное «400B+» в названии самой большой LLAMA 3...

— загадочное «400B+» в названии самой большой LLAMA 3 означает 405B. Это dense модель, не микстура экспертов.
— в ближайшие месяцы ожидаются новые модели, они будут мультимодальными (как минимум с картинками на входе), а также поддерживать больше языков и более длинный контекст
— решение закупить много GPU в 2022м было принято в рамках работы над... Reels в Instragram 😕 тогда подумали, что хорошо бы делать рекомендации не только по рилсам ваших контактов, но и по незнакомым. Mark хотел догнать TikTok с точки зрения рекомендаций и ленты. Он сделал yolo bet и сказал «давайте закажем в два раза больше? Наверняка мы что-то упускаем сейчас, пригодится». Ну вот, нашлись и другие применения 🙂
— LLAMA-2 не тренировали на большим количестве кода, так как думали, что у пользователей не будет таких задач для модели при интеграции в продукты META. Но оказалось (по-моему, исследования были и до выхода LLAMA-2, см. тут), что обучение на коде улучшает рассуждения модели и в других доменах — поэтому LLAMA-3 обучена на огромном количестве скриптов.
— в LLAMA-3 наблюдаются лишь мелкие зачатки агентности (возможности самостоятельно решать отдельные задачи с минимальным наблюдением человека), задача при разработке LLAMA-4 развить их, так как финальное видение AI-ассистентов у Mark — это что ты говоришь «сделай то-то и это», и оно делается
— При обучении 70B на 15T токенов (триллионов. Очень-очень много — LLAMA 2 видела 2T, GPT-4, по слухам, 12-13T) качество модели не вышло на плато, то есть её можно продолжать тренировать и улучшать. У 400B версии наверное вообще конца-края не видно будет

🤙 и это всё — на один проход, без повторений. И дубли, я почти уверен (статьи-то нет), отсекали и фильтровали.
— Также CEO META считает, что экспоненциальное развитие пока будет продолжаться, и что траты в сотню миллиардов долларов на дальнейшее развитие моделей выглядят приемлемыми. Но ещё до того, как индустрия придёт к тому, что капитал больше не имеет смысл вкидывать в железо и обучение, мы упрёмся в энергию, и это будет боттлнеком. Даже если у вас есть деньги — почти нигде не получится не упереться в регуляции и взять и построить электростанцию для подпитки датацентра.
— Более того, решение вопроса с энергией также позволит строить кластера большего размера, чем мы можем сегодня (тут хочу напомнить про проект суперкомпьютера OpenAI x Microsoft за $100B). Сейчас нет датацентров для тренировки LLM на 1 гигаватт. Но они будут появляться. Условно датацентр, а прямо за ним — АЭС (не шутка, Mark сам это упомянул - и он не первый кстати, CEO Anthropic тоже такое упоминал).
— Скорее всего, в будущем тренировка будет происходить не просто на имеющихся данных, а прям итерациями: обучили, сгенерировали синтетические данные, дообучились, и так по кругу. Это не лишено смысла — как писал выше, моделям нужно больше данных, они не доучиваются прям до конца, не выходят на плато. И на это тоже потребуются огромные мощности.

(это первая половина, читайте ниже остаток 🔽)

Источник: Сиолошная

2024-04-18 17:36:01