— загадочное «400B+» в названии самой большой LLAMA 3...
— загадочное «400B+» в названии самой большой LLAMA 3 означает 405B. Это dense модель, не микстура экспертов. — в ближайшие месяцы ожидаются новые модели, они будут мультимодальными (как минимум с картинками на входе), а также поддерживать больше языков и более длинный контекст — решение закупить много GPU в 2022м было принято в рамках работы над... Reels в Instragram 😕 тогда подумали, что хорошо бы делать рекомендации не только по рилсам ваших контактов, но и по незнакомым. Mark хотел догнать TikTok с точки зрения рекомендаций и ленты. Он сделал yolo bet и сказал «давайте закажем в два раза больше? Наверняка мы что-то упускаем сейчас, пригодится». Ну вот, нашлись и другие применения 🙂 — LLAMA-2 не тренировали на большим количестве кода, так как думали, что у пользователей не будет таких задач для модели при интеграции в продукты META. Но оказалось (по-моему, исследования были и до выхода LLAMA-2, см. тут), что обучение на коде улучшает рассуждения модели и в других доменах — поэтому LLAMA-3 обучена на огромном количестве скриптов. — в LLAMA-3 наблюдаются лишь мелкие зачатки агентности (возможности самостоятельно решать отдельные задачи с минимальным наблюдением человека), задача при разработке LLAMA-4 развить их, так как финальное видение AI-ассистентов у Mark — это что ты говоришь «сделай то-то и это», и оно делается — При обучении 70B на 15T токенов (триллионов. Очень-очень много — LLAMA 2 видела 2T, GPT-4, по слухам, 12-13T) качество модели не вышло на плато, то есть её можно продолжать тренировать и улучшать. У 400B версии наверное вообще конца-края не видно будет 🤙 и это всё — на один проход, без повторений. И дубли, я почти уверен (статьи-то нет), отсекали и фильтровали. — Также CEO META считает, что экспоненциальное развитие пока будет продолжаться, и что траты в сотню миллиардов долларов на дальнейшее развитие моделей выглядят приемлемыми. Но ещё до того, как индустрия придёт к тому, что капитал больше не имеет смысл вкидывать в железо и обучение, мы упрёмся в энергию, и это будет боттлнеком. Даже если у вас есть деньги — почти нигде не получится не упереться в регуляции и взять и построить электростанцию для подпитки датацентра. — Более того, решение вопроса с энергией также позволит строить кластера большего размера, чем мы можем сегодня (тут хочу напомнить про проект суперкомпьютера OpenAI x Microsoft за $100B). Сейчас нет датацентров для тренировки LLM на 1 гигаватт. Но они будут появляться. Условно датацентр, а прямо за ним — АЭС (не шутка, Mark сам это упомянул - и он не первый кстати, CEO Anthropic тоже такое упоминал). — Скорее всего, в будущем тренировка будет происходить не просто на имеющихся данных, а прям итерациями: обучили, сгенерировали синтетические данные, дообучились, и так по кругу. Это не лишено смысла — как писал выше, моделям нужно больше данных, они не доучиваются прям до конца, не выходят на плато. И на это тоже потребуются огромные мощности.