Нейролента Mikitos.ru 2736 постов. Страница 22 (50 постов)
Голый землекоп 2024-01-22 15:14:24
..
Ai и отпечатки пальцев: революционное открытие, которое поменяет мир криминалистики. Его сделал студент, который пошел против всего истеблишмента.
Считалось доказанным, что отпечатки разных пальцев одного человека — разные. Телефон не разблокируешь указательным, если он запомнил большой.
Оказалось что это не так: отпечатки всех десяти пальцев одного человека несут так много общего, что теперь мы можем их определять. То есть, если на месте одного преступления нашли отпечаток указательного, а на месте другого - отпечаток большого, мы можем точно определить, что это был один и тот же человек. И это открытие сделал ai.
Десять пальцев, разные они или одинаковые — это на чей взгляд? Когда люди сообразили, что отпечатки уникальны, они придумали свой способ смотреть на них. Способ, которому можно обучить новичка, и он сможет находить уникальный узор, сравнивать разные отпечатки и выносить вердикт. В этом мире есть догма: разные пальцы несут разные отпечатки.
А дальше наступает 21й век и ai, появляется студент-первокурсник по имени Габриел Гуо из университета Коламбия в NY, и решает, что надо бы это перепроверить. Он ничего не знает про догму, а уметь обучать нейросети.
Ai смотрит на 60000 отпечатков, сам себе придумывает способ их изучать, и говорит: вы были неправы все это время. Теперь надо будет пересмотреть множество судебных дел, удастся оправдать невиновных и найти преступников.
Самое интересное: авторам удалось вникнуть в процесс принятия решений у ai, и произошла редкая вещь. Искусственный интеллект объяснил в понятных нам словах, что мы делали не так, и как надо смотреть — см видео.
Дальше авторы посылают статью в журнал криминалистики, и получают быстрый отказ с одной фразой: “Общеизвестно, что каждый отпечаток уникален”. Не сдаются, их отфутболивают еще из одного журнала. Но они доходят до Science (Advances)! Потому что это фундаментальный факт про человека, и потому что этот способ открытия важен для разных областей науки. В чем мы еще не раз в этом году убедимся.
Метаверсище и ИИще 2024-01-22 15:10:11
ИИ-нирвана.
Пост для взрослых.
Для начала прочитайте вот этот пост:
https://t.me/cgevent/6223 про оргазмы "с умом".
Ну и похоже идея вонзать ИИ в игрушки для взрослых пошла в массы.
На выставке CES 2024 было показано «устройство стимуляции» с искусственным интеллектом для контроля эякуляции.
Если проще - искусcтвенная вагина с искусственным интеллектом.
Все это преподносится в разрезе сексуального здоровья:
Myhixel утверждает, что ее приложение Play включает в себя 8-недельную программу обучения, которая геймифицирует мастурбацию и «клинически доказано» для лечения проблем преждевременной эякуляции.
Я поискал, в каком месте там ИИ, но похоже он спрятался в приложении. Сама игрушка на рынке уже много лет, но ИИ хайп докатился и до нее.
А я вот подумал, что это шанс для Apple Vision Pro найти, наконец, свою нишу.
С одной стороны, если вы пробовали смотреть VR-порно (лучше в 4К), то это реально, скажем так впечатляет.
С другой стороны, снимание информации с башки зрителя и может, наконец, дать необходимые данные для нейробиологической обратной связи и превратить такую связку и маркетинг-буллшита в ИИ-нирвану.
Крутизна лыжной масочки от Эппле в том, что они умеют снимать реально много данных с башки кожаного, и все эти ЭЭГ из вот этого поста будут уже не нужны.
https://myhixel.com/products/myhixel-control
https://www.youtube.com/watch?v=6Irhyg3oE5M
Метаверсище и ИИще 2024-01-22 14:37:59
Кому ИИ-генерации в векторы?
Я уже писал про Recraft 9 месяцев назад, там тогда не работала генерация в вектор и все было довольно сыро.
https://t.me/cgevent/5547
Но за это время проект нехило так развился.
400 000 пользователей, 50 миллионов генераций (хотя эти цифры тоже можно генерировать))
Там заработал экспорт в SVG, я проверил. В шапке SVG.
Предлагаю в коментах обсудить качество вектора.
Но мое внимание привлекла вот такая деталь.
Авторы хотят обучить свою модель для генерации картинок. Типа замену Stable Diffusion.
И судя по тому, что они поднимают 12 миллионов, у них, возможно, получится.
Уже ведется работа над базовой моделью: «Она будет намного больше по размеру и будет иметь другую архитектуру, которая обеспечит лучшую анатомию, качество детализации и более сложные текстовые описания»
Амбициозно.
Они целят в жирную нишу для создания и редактирования векторной графики, иконок, 3D(!?) и вообще в рекламу и брендбуки.
Стартап из Лондона, но там выходцы из Яндекса, которые запилили библиотеку CatBoost - open source library for gradient boosting on decision trees. Так что их амбиции вполне себе адекватные.
https://www.recraft.ai/
Метаверсище и ИИще 2024-01-22 14:09:32
Для тех, кто в танке, у CodeMiko есть youtube канал, где она вытворяет всякие безобразия с Unreal Engine, захватом лица, рук и всего тела.
Не забудьте заглянуть в шортс, там очень много добра. Про AI Hands смешно.
https://www.youtube.com/@CodeMiko/featured
И поглядите на реалтаймовую одежду и волосы - как вам?
От себя замечу, что сетап этого хозяйства - это вам не картинки в Автоматике или видео в Пикалабсе генерить. Нужен мозг и некривые руки.
Кого интересует раскрытие темы сисек, я уже писал как Code Miko ее закрывает: https://t.me/cgevent/4547
Метаверсище и ИИще 2024-01-22 14:02:57
Пока мы прокачиваем нейроаватаров, олдскульное 3Д тоже не дремлет.
Поглядите, что вытворяет CodeMiko.
Захват лица БЕЗ всяких датчиков и маркеров и шлемов - просто AI face mocap
Все это -реалтайм.
Ждем подробностей на youtube, а пока смотрим на твиче.
https://clips.twitch.tv/CuriousAmazonianWolverineWoofer-h8SQeAfJ16B-w9Ta
Сиолошная 2024-01-22 13:06:21
Live stream scheduled for
Сиолошная 2024-01-22 13:04:25
В среду (24 января) у канала День рождения — ему исполняется (всего) 1 год!
В честь этого я организую праздничный видео-стрим с чаем и печеньками!
В гости ко мне заглянут Валерий Бабушкин (@cryptovalerii) и Татьяна Шаврина (@rybolos_channel), и, быть может, кто-то ещё
Обязательно приносите хорошее настроение, и не забудьте про горячий чай. Также можно будет позадавать релевантные вопросы (можно начинать под этим сообщением-анонсом).
Собираемся в среду в 21:00 МСК (18:00 UTC+0) прямо тут, в Телеграме. Стрим продлится часа полтора. Записи НЕ БУДЕТ (кто вообще на праздниках записывает?)
Neural Shit 2024-01-22 12:59:37
Наткнулся на забавную lora, которая генерирует котолюдей и/или размещает случайных кошек в сценах.
Поиграться онлайн можно в спейсе huggingface, скачать для локального использования - здесь.
Активируется текстом "HuMeow " в промпте.
эйай ньюз 2024-01-22 10:29:45
А вот теперь, мы начнем играть в VR по-взрослому! Disney представила свою новую крышесносную разработку HoloTile Floor. Это имено то, что я себе представлял в детстве, когда мы с парнями мечтали о будущих играх виратуальной реальности.
Да, я четко помню, что в году 2005 у нас уже были обсуждения и фантазии насчет "виртуальной реалтности", которая вот-вот появится на новых компах, и мы будем играть лесными эльфами, охраной дворца и злодеем. Можно будет грабить корованы...
А с таким полом, кажется, можно действительно испытать полное погружение в виртуальную реальность. HoloTile Floor первым делом будут устанавливать в парках развлечения Disney, но в какой-то момент они могут дойти и до домашних пользователей. Кроме обычных игр, фитнес приложения смогут выйти на совсем иной уровень.
Omni-directional беговые дорожки существовали и ранее (например virtuix), но они как правило выглядели громоздко и на игрока нужно было вешать кучу дополнительных приблуд. Кроме того, в HoloTile Floor, можно еще и перемещать предметы, и двигаться, сидя на предметах.
В общем, what a time to be alive! И ждем новых серий черного зеркала.
@ai_newz
Neural Shit 2024-01-22 07:11:23
С энтими нашими нейронками мы совсем позабыли про алгоритм цепей Маркова. А там тоже можно извлекать лулзы. Вспомнил старое (раз, два, три) и попробовал усреднить воинские уставы и учебники по UNIX и C++, дабы надёргать интересного. Вот:
>>Размер переменной в C++ утвержден Президентом Российской и имеет длину 1,8 м и ширину 1,2 м.
>>Разумеется, внешний интерфейс С++ был впервые введен за пределами санитарно-защитных зон населенных пунктов
>>Дежурные и дневальные по подразделениям, кроме военнослужащих женского пола, входящих в состав полка, допускаются в парк только по одному блоку за одну операцию
>>Ядро в UNIX действует от имени начальника гарнизона
>>Ордена Российской Федерации, которые связаны с ошибками в протекании процесса в системе UNIX включаются в текущий каталог.
>>Сушка обмундирования проводится в сушилках или отведенных для этого местах в цикле, с помощью функции dup.
>>Строковый интерфейс передает данные между процессами и подсистемой управления вводом-выводом, а также обучающимся в военных образовательных учреждениях профессионального образования до заключения ими контракта
>>Взаимоотношения между военнослужащими строятся на внешнем устройстве, освобождая центральный процессор для другой работы
>>Для сохранения боевых традиций воинских частей ядро запускает алгоритм назначения индекса с самого начала.
>>По отношению к внутренним караулам полка дежурный по полку
руководствуется только внутренним функциям ядра; он является архетипом всех процессов ядра
>>Сгенерированный компилятором код должен безотлучно находиться на поясном ремне с левой стороны на ширину ладони от пряжки
Если вдруг кто-то захочет сгенерить нечто похожее, то вот тут очень годный репозиторий для генерации подобных штук.
Метаверсище и ИИще 2024-01-21 16:37:39
Nvidia выкатила ChatQA - продавцы лопат наконец-то вышли из тени.
Это целое семейство LLM, от 7В до 70В параметров, специально заточенных по чаты (вопрос-ответ).
Конечно, по утверждениям Nvidia они наступают на пятки GPT-4:
"Примечательно, что наш ChatQA-70B может превзойти GPT-4 по среднему баллу на 10 наборах данных разговорного QA (54,14 против 53,90), не опираясь на синтетические данные моделей GPT от OpenAI."
Пока можно сказать одно, с железом для тренировки моделей у них проблем нет.
Много интересного прямо во введении в статью - в основе лежит клан Лламы:
We build a family of ChatQA models based on Llama2-7B, Llama2-13B, Llama2-70B and a in-house 8B pretrained GPT.
10 датасетов, включая 5 наборов данных с длинными документами, которые требуют поиска(retrieval), и 3 набора данных с таблицами.
Тут вот с интернетиках пишут, что модель умеет отвечать на вопросы, которые не имеют ответов.
Это не так, она просто умеет отвечать "я не знаю ответ", вместо того, чтобы галлюционировать.
"Добавление небольшого количества «unanswerable» образцов при настройке инструкций может
управлять моделью для генерации ответа «не могу ответить» когда это необходимо, таким образом в значительной степени уменьшает галлюцинации.
Кода, как обычно у Нвидии нет, одна бумага.
Осталась одна Эппле с неотвеченными вопросами о том, доколе они будут тормозить со своей LLM..
https://analyticsindiamag.com/nvidia-introduces-chatqa-gpt-4-level-conversational-qa-models/
https://www.reddit.com/r/LocalLLaMA/comments/19as4lf/nvidias_new_paper_introduces_chatqa_model_that_is/
Neural Shit 2024-01-21 11:39:19
Там зарелизили Nigtshade — программулину, которая сбивает с толку нейронки, обучающиеся на спаршенных из интернетов работах художников. Суть: в исходном изображении хитро меняются пиксели, что заставляет нейросети "видеть" на изображении совсем другие объекты (звучит как хуита).
Ирония в том, что софтина эта сама работает при помощи нейронок.
Скачать посмотреть подробнее можно тут. Но имейте в виду, что принесёт оно пользы не больше, чем в русской бане пассатижи. Ибо большие сетки учат не дураки и обойти вот это вот всё - как два пальца обоссать.
Сиолошная 2024-01-21 09:01:26
Как Спайс занимает центральное место в мире Дюны, так и вычислительный мощности (в речи — compute, компьют) играют ключевую роль для AI — наравне с данными.
У нас уже как минимум пару лет есть эмпирический (то есть выявленный экспериментально) закон, который позволяет предсказать прокси-качество модели ещё до её тренировки. Чем больше данных положишь, чем больше будет модель и чем дольше будешь учить — тем лучше. Фишка в том, что это единственный гарантированный способ улучшений (поправьте, если не прав). Всё остальное носит исследовательский характер и может не взлететь — даже если идея кажется суперперспективной и передовой. А ведь большие модели ещё надо применять, что тоже требует ресурсов! Поэтому для компаний, желающих оставаться на плаву в AI и тем более догонять лидеров рынка в лице OpenAI, наращивание датацентров впрок имеет огромный, можно сказать стратегический смысл.
Давайте о цифрах. GPT-4, закончившая тренировку в августе 2022го (полтора года назад!), по слухам обучалась на ~25,000 GPU A100 на протяжении 90-100 дней. Если переводить в количество вычислений, то это примерно 2.15E+25 FLOP (2.15 умноженное на единицу с 25 нулями). Грубая оценка в $1/час за 1 видеокарту даёт стоимость тренировки $63m, но вероятно, что для OpenAI цена была ниже. На обучение самой большой LLAMA-2 на 70B параметров META затратила на обучение ~1.1e+24 FLOP — в 20 раз меньше, так что есть куда расти.
Однако время идёт, технологии развиваются, и всё большее количество компаний переезжает на видеокарты H100 — последнее поколение железок от Nvidia, которое в 2-3 раза мощнее предшественницы A100. В тренировке таких больших моделей есть много неэффективностей, связанных с масштабом (нужно же как-то оркестрировать и синхронизировать 25000 видеокарт), поэтому возможность обучить такую же модель на меньшем объеме карт сразу же подразумевает улучшение эффективности использования ресурсов. Ту же GPT-4 можно было бы обучить на ~8,192 видеокарт H100 за 55 дней. Запомнили: 8 тысяч видеокарт на 2 месяца.
Это был контекст новости, а теперь сама новость: на неделе Mark Zuckerberg анонсировал, что META собирается заиметь 350'000 видеокарт H100 до конца года, и суммарно иметь мощности, эквивалентные 600'000 H100. Мноооооого компьюта. Можно будет тренировать LLAMA-4 сразу как конкурента GPT-5. Маловероятно, что это коснётся LLAMA-3, которая уже тренируется и скоро должна выйти (по слухам, в конце февраля), но вот следующая модель должна сделать внушительный скачок.
Эти цифры действительно впечатляющие — в прошлом году я писал, что Tesla начали делать свои чипы и строить на них суперкомпьютер, и был прогноз, что к октябрю 2024го у них будет эквивалент 300'000 A100 (не H100! то есть гораздо меньше!).
Кажется, что это какие-то невероятные цифры для обучения одной модели — можно предположить, что тренировка будет происходить в рамках одного датацентра, в котором ну от силы пусть будет 50-75 тысяч видеокарт (оценка с потолка, но приближенная к реальности. Если есть оценка лучше — пишите в комментарии). Однако из интервью с сотрудником DeepMind, которое мы делали с Валерой @cryptovalerii, и из статьи про Google Gemini стало известно, что модели уже тренируют на нескольких датацентрах за раз! Так что это не должно быть преградой, и вероятно в конце 2024-начале 2025го мы увидим модели, тренируемые на >100'000 видеокарт (аналог ~350-400k A100, использовавшихся для GPT-4).
Как думаете, Deep Learning is hitting a Wall (в очередной, сотый раз)? Готовы ставить против моделей следующих поколений?
эйай ньюз 2024-01-20 17:00:25
Stable LM 2 1.6B от Stability AI
Кажется, Stability AI решили немного улучшить состояние дел в маленьких LLM. Вот выпустили Stable LM 2 со скромными 1.6B. По бенчмаркам она показывает себя более чем достойно и является самой сильной моделью в весовой категории до 2 млрд параметров.
Тренили ее две эпохи на двух триллионах токенов. Датасет использовали мультиязычный - Английский, Испансикй, Немецкий, Итальянский, Французский, Португальский и Голландский. Русского, увы нет.
В целом, мне нравится тренд на создание уменьшенных моделей, не сильно теряя в качестве генерации. Проще и шустрее будет такие модельки запускать у себя на лаптопе либо на мобильниках.
Демка на HF
Базовая модель
Instruction-tuned версия
@ai_newz
Метаверсище и ИИще 2024-01-20 14:13:23
Kandinsky отчитался об успехах.
По данным разработчиков, было создано более 200 млн генераций по текстовым запросам, а аудитория превысила 12 млн уникальных пользователей. Модель заняла первое место по темпу роста и стала второй после Stable Diffusion по популярности среди разработчиков по версии Hugging Face, где собраны лучшие open source-решения. Сам часто пользуюсь ботами Кандинского, когда делаю интерактив на лекциях. Кидаю куар код в зал - народ начинает неистово генерить креатив, а я вывожу ленту с креативами на экран. Работает убойно, забирайте трюк. Плюс в том, что боты Кандинского работают реально быстро и не требуют регистрации. В отличие от тысяч попрошаек "щас Midjourney и DALL·E 3 за 100 рублей". Скорость помогает дать пользователям понимание того, что вообще происходит. На сайтах fusionbrain.ai, rudalle.ru работает еще быстрее. Модель также работает в сервисе GigaChat, доступна в мобильных приложении Салют, а также на умных устройствах под управлением Салют ТВ по голосовой команде «Запусти художника».
Технически Kandinsky понимает запросы на более чем на 100 языках, генерация реально безлимитная и бесплатная, хорошо умеет в стилизацию. Модель также умеет менять отдельные объекты или области на картинке, смешивать несколько рисунков, inpainting/outpainting, бесконечный зуминг, все как у людей.
Интересно, что в культурные коды тоже исполняет хорошо, знает много народного фольклора и мемов, но заставить его сгенерить цветок с семью лепестками у меня не получилось. Помните челлендж про цветик-семицветик и DALL·E 3? Видать это архетип вселенского уровня.
В общем я регулярно пользуюсь в образовательных целях из-за скорости и бесплатности.
Метаверсище и ИИще 2024-01-20 14:11:19
Для тех, кто в хардкорной графике. ИИ-ротоскоп и композ.
Пост для гиков.
Мой хороший друг и легенда в мире композа Витя Перец запостил у себя новость о том, что у Фаундри (которая написала Nuke) есть A.I. Research Team и они ищут QA-инженера с опытом ротоскопа.
"Лучшая софтверная компания в мире ищет инженеров с опытом работы в AI... все мировое сообщество Nuke будет любить вас вечно, а ваше имя будет вытатуировано в сердце каждого композитора, если вы решите проблему автоматического рото с помощью AI... пиво за мой счет!"
Народ в коментах трактовал это как Фаундри ищет ML-инженера и там разгорелись битвы по поводу ИИ-ротоскопинга. Хотя в описании вакансии типичный QA-тестировщик. Есть лишь пожелание "Experience and knowledge of machine learning and A.I."
То, что Foundry пилят ML-ноды уже давно не секрет. Вопрос в темпах и в том, почему они до сих пор не прикрутили богатое наследие Stable Diffusion в Mari, и весь этот open source tracking в Nuke. Вариантов применения - тонны. Но как и все софтверные гиганты, Фаундри поднимает веки очень медленно.
И как обычное самое сладкое нашлось в коментах.
Rotofury - это набор скриптов для Нюка, которые имплементируют опен-сорсный CoTracker от Метачки - быстрая модель на основе трансформеров, которая может трекать любую точку на видео.
Про Cotracker можете почитать тут, выглядит убойно. И классно то, что народ уже прикручивает это в профессиональные софты типа Нюка в виде Rotofury, чтобы это не оставалось демками на Хаггинг Фейсе.
Там же в коментах обнаружился Omnimotion:
Имплементация работы Tracking Everything Everywhere All at Once
Ну и грех не упомянуть, что Влад Ахтырский пилит свой Мега-ИИ-Комбайн для Нюка, где есть все на свете, от рото и кея, до автоматической генерации проектов в Нюке:
https://youtu.be/lrYVCpqn8FE?si=wbLgZ7wQEGMwQEvV
Это, пожалуй, самый интересный проект по применению ИИ в композе.
p.s. На сладкое одна история с Витей Перецом. Он был одним из ключевых спикеров на одном из моих cg event-ов.
Сидит, Витя, как обычно, со своим 8-килограмовым ноутом, ядерной видеокартой и атомным процессором готовится, колдует в Нюке. Потом закрывает его, и ждет времени начала выступления. Сетапимся, подключаемся, Витя открывает ноут, но тут винда решает, что уже ночь на дворе и пора поставить обновления. И ставит. На большом экране. 5 минут, 10 минут, 15 минут. Я рассказал все свои шутки за 10 лет, задал все вопросы Вите, спросил все что мог у зала. Через полчаса винда обновилась. С тех пор я могу тянуть время на выступлениях вечно, говорить о чем угодно, и писать любое количество постов в день. Не позволяйте винде ставить обновы автоматически!
Метаверсище и ИИще 2024-01-20 13:09:31
Нейросимволическая архитектура и ускорение обучения в 700 раз.
Пока весь мир сходит с ума на архитектуре Transformer, есть холодные умы, которые пытаются радикально снизить издержки на обучение в сотни раз, без специальных TPU, при этом понимать о том, почему и как черный ящик принимает решения.
Вадик Асадов прислал интереснейший проект с архетипичным названием Aдам и Ева
Это новая архитектура, которая в 700+ раз быстрее стандартных трансформеров. Коллеги научились делать N вместо N^2 по размеру данным и могут крутить все это хозяйство даже на CPU.
Отсюда два следствия.
Первое, нынешнее обучение LLM дико дорого: стоимость увеличивается квадратично с размером набора данных. Стоимость обучения за последние десять лет увеличилась в миллион раз. Даже OpenAI и другие уже сталкиваются с нехваткой оборудования ИИ. Чтобы полностью реализовать потенциал распространения ИИ, необходимо изучить альтернативные архитектуры ИИ, которые требуют значительно меньшей вычислительной мощности.
Другое законное желание - уметь понимать решения, принимаемые ИИ. Нейронные сети с их распределенным мышлением не интерпретируемые. Непонятно, почему они дают определенные ответы и как на их поведение можно влиять без переобучения всей модели.
Далее дам выжимку из описания, а почитать подробнее и записаться в вейт-лист, можете тут.
Я заинтригован.
https://adam-eva.ai/technology.html
Наши алгоритмы нейросимволического обучения основаны на принципе минимальной длины описания. Этот принцип гласит, что способность модели к точному прогнозированию возрастает с увеличением эффективности сжатия данных.
Мы используем стратегию глубокого сжатия данных, которая выполняется постепенно на нескольких слоях. Каждый слой сжимает данные в более широком временном масштабе, чем его предшественник, что отражает scale-free природу данных, наблюдаемую в естественных языках. Это сходство позволяет предположить, что наша архитектура может быть особенно эффективной для приложений ИИ на основе языка, используя структуру данных, схожую с человеческой лингвистической обработкой.
В нашей архитектуре каждый уровень независимо разрабатывает свой собственный формальный язык, выявляя повторяющиеся шаблоны в потоке входящих символов и эффективно сжимая их в более плотную последовательность часто встречающихся комбинаций, или "слов". Таким образом реализуется сжатие данных внутри слоев без потерь.
Между слоями мы применяем сжатие семантических данных с потерями, чтобы присвоить словам осмысленные интерпретации. Семантический контекст каждого слова отражается в векторах вероятности его соседей. Кластеризуя эти семантические векторы, мы определяем алфавит для последующего слоя, позволяя представить каждое слово как символ, кодирующий информацию в более длительном временном масштабе.
Каждый слой нашей модели состоит из нескольких heads, каждая из которых выступает в роли эксперта по кодированию слов из предыдущего слоя на основе определенной кластеризации. Такая multi-head система позволяет разнообразно интерпретировать данные, подобно multi-head вниманию в "Трансформерах".
Обучение модели представляет собой иерархический процесс. Она изучает ряд формальных языков, в которых слова низкого уровня абстрагируются в символы более высокого уровня. Понимание входного потока возникает в результате анализа снизу вверх всеми слоями, а формирование ответа - это процесс сверху вниз, когда каждый слой вносит свой вклад в реализацию общей стратегии.
Сиолошная 2024-01-20 10:45:17
OpenAI впервые заключили партнёрство с образовательным учреждением для внедрения AI в процессы обучения
Счастливчиками стали студенты Arizona State University. Согласно плану, планируется создать персонализированного ИИ-наставника для студентов. Тот будет помогать как с конкретными курсами с известной программой, так и консультировать по любым необходимым топикам.
Основной упор будет сделан на предметы STEM (Science, Technology, Engineering, Mathematics), но и про гуманитарные науки не забудут. В США на первых курсах есть обязательный предмет «Freshman Composition», где студенты изучают основы эссе, аргументации и развивают критическое мышление — и вот тут ChatGPT тоже поможет.
Студентам, преподавателям и сотрудником спец. группы, разрабатывающим решение, будет оформлен пакет ChatGPT Enterprise, включающий расширенный доступ к полноценной модели GPT-4 (без ограничения в 40 сообщений в 3 часа — чтобы ничего не отвлекало от учебного процесса). А помните как в самом начале в школах и университетах банили ChatGPT? Как быстро обернулся мир, и как хорошо, что нашлись умные люди, готовые к переменам!
Я уже несколько раз писал, что образование — один из основных топиков, который мне интересен в контексте AI. Рекомендую прочитать хотя бы вот эти 3 поста: раз, два и три. В первом можно увидеть, как AI-учитель помогает генерировать решения и объясняет тему, что впоследствии увеличивает оценку тестируемого.
gonzo-обзоры ML статей 2024-01-20 10:39:47
В продолжение темы про CETI (https://t.me/gonzo_ML/2182) классная интерактивная статья про слонов и китов:
https://ig.ft.com/ai-animals/
Neural Meduza 2024-01-20 07:42:20
Когда у вас спрашивают, в чем смысл жизни, вы отвечаете: не смысл, а бессмысленность. И это очень страшно.
gonzo-обзоры ML статей 2024-01-19 20:44:45
Пятничное
Метаверсище и ИИще 2024-01-19 18:43:52
Ну ладно прическа портится, тут мы потеряем только длинноволосых.
Но как быть с ушами, Карл?
Все готовы быть эльфами и хобитами?
Кстати, Netflix канселит Vision Pro и не планирует выпускать приложение для visionOS, а также не позволит запустить свое приложение для iPad на масочке. Вместо этого компания предложит пользователям смотреть Netflix через веб-браузер. https://bloomberg.com/news/articles/2024-01-17/watching-netflix-on-apple-vision-pro-you-ll-have-to-use-the-web
Так что с просмотром кино пока не очень.
Метаверсище и ИИще 2024-01-19 18:13:47
Держите прям совсем свежий ролик от Эппле про Vision Pro. Только что залили.
Я внимательно посмотрел, но так и не понял - а что там делать-то?!
Во всех обзорах пишут: там фото и видео смотреть очень круто.
Ок, а что там делать, кроме как смотреть фото и видео?
Единственное, что привлекло мое внимание, это приложение Mindfulness, но его как-то быстро замяли.
Что нового придумают разработчики приложений для Vision Pro, помимо того, что уже было написано для Квеста и других шлемаков?
Ибо кроме игр, ничего массового не наблюдалось на этой поляне.
Нишевого-полезного много, массового, кроме игр и просмотра кино - ничего.
Вы станете покупать лыжную маску на $3500 для просмотра видосов?
https://www.youtube.com/watch?v=Vb0dG-2huJE
P.S. Я вижу одну очень интересную нишу. Благодаря тому, что масочка умеет собирать много данных с глазок и вообще головы кожаного, приложения, связанные со здоровьем и вообще нейрофидбеком могут быть очень интересными. Это как apple watch размером с голову. Но есть ли тут массовый рынок и насколько он этичный, скажем так?
Метаверсище и ИИще 2024-01-19 17:48:13
Ну за 3Д-моделлеров и 3Д-стоки.
Про китайцев из DeemosTech я уже писал в своем посте про Чатаватаров.
Это бывшая лаборатория в Шанхайском университете.
Я не знаю, сколько у них там RnD отделов, но они собирают довольно годные демки по разным вариантам применения ИИ в 3Д. Их Том Круз был довольно узнаваем.
А сейчас они собрали прям очень сладкий пайплайн из Блендора и text-to-3D генераций.
В Блендоре вы расставляете кубики и пишете для них промпты, а ИИ генерит 3Д-модельки на месте этих кубиков. Тут нет магии, просто удобство, делаете композицию на баундинг-боксах, а потом "нейрорендерите" это в 3Д, с последующим "настоящим" рендером (там даже PBR-материалы обещаны).
Фишка тут в том, что их модель Rodin Gen-1 (1,5 миллиарда параметров, если что), является самой большой из доступных нативных 3D-моделей и учитывает входящие размеры объектов.
Пример того, как можно из опен сорса и палок собирать ловкие прототипы будущих инструментов.
Просто представьте, вот есть у вас сцена, выделяете любой объект и кричите в монитор, "теперь это не тупая машинка, а винтажный опель 1947 года, цвет баклажан, тонированные стекла".
Хихикаете?
А ведь скоро можно будет "наговорить сцену".
Поройтесь у них в твитторе, там довольно много свежака про Чатаватары и другие проекты.
https://twitter.com/DeemosTech
Полезная статья про ХиперХьюманов:
https://deemostech.medium.com/hyperhuman-explained-81ec12cbe86c
P.S. Для тех, кто давно читает мои посты про 3Д, есть одна маленькая деталь: all of the assets Rodin generates "should be retopologized".
Чуда нет, тут генерация картинок по промптам с разных ракурсов, а потом генерация облаков точек на основе этих картинок.
Кстати, Rodin - это Родэн, тот который скульптор.
Метаверсище и ИИще 2024-01-19 16:34:54
Вы думаете, "да кто это будет смотреть ваще?". Держите немного веры в человечество и любопытных деталей.
С момента своего дебюта на сайте в июне 2023 года Лекси установила «сильную эмоциональную связь» со многими своими платными подписчиками.
Некоторые подписчики даже убеждены, что Лекси — реальный человек: искусственный интеллект Foxy делает до 20 предложений руки и сердца в месяц.
Lexi не только предлагает платные текстовые и голосовые сообщения, но и может отправлять «непристойные фотографии» по запросу.
Популярность Love растет с каждым месяцем: Foxy AI утверждает, что скоро они будут зарабатывать более 30 000 долларов (24 000 фунтов стерлингов) в месяц на ИИ тварюге.
Хотите поразглядывать, идите сюда:
https://nypost.com/2024/01/18/lifestyle/model-lexi-love-makes-360k-a-year-sexting-men-but-theres-one-problem/
Хотите больше таких ИИ-тварей, шуруйте сюда:
https://foxy.ai/explore
И загляните в креативный отдел:
https://foxy.ai/creators
Метаверсище и ИИще 2024-01-19 16:34:46
Зайдем с козырей. ИИ-секстинг.
Тут вначале года все склоняли цифровую тварь Emily Pellegrini, которая типа "сгенерирована ИИ" и взрывает инсту.
Ну как взрывает, 90 постов, 261К подписчиков, нагон трафика на лицо (с пробелом).
Про "сгенерирована ИИ" - тут ситуация банальная, один смышленый чувак просто тырит чужие фотки в интернете и пришпандоривает к ним одно и то же лицо (живое или синтетическое, без разницы). Про один из пришпандоривателей лица я уже писал.
Так что в следующий раз, когда вы читаете про "сгенерирована ИИ", особенно, когда речь идет про видео(как в шапке), имейте в виду, что это банальный однокнопочный дипфейк на службе интернет монетизации.
Ну мы с вами поговорим про более взрослые случаи.
Модель Lexi Love (тут кстати действительно полная генерация в Stable Diffusion) нормально так поднимает денег, причем не на какой-то нищебродской рекламе, а с помощью жесткого секстинга (это когда мужуки хотят поговорить про это с кем-то в интернете и выпрашивают фотки разных частей тела).
Лекси делает то, чего не могут делать кожаные модели: она говорит на более чем 30 языках и может общаться с подписчиками 24 часа в сутки.
Пять бесплатных сообщений, а потом иди вонзать деньги. Цены довольно жоские.
Самое интересное, в разделе "для креаторов" - вы можете сделать себе свою ИИ-модель.
ОнлиФанс сейчас реально поперхнулся - представьте себе полчища таких полиглотов, работающих по 24 часа в сутки за электричество.
По техническим особенностям - никого не трясет, что с пальцами на фотках беда, кому нужны фотки пальцев, когда основа бренда такая грудь. Генерации на уровне Stable Diffusion 1.5.
А вот с чат-ботом непонятно, реакции модели невнятные, похоже больше на скрипты, чем на LLM. Но дайте время..
Я бы начал выпивать за моделей с ОнлиФанс, но предвижу "гибридные" варианты - живая модель работает (и скорее всего только телом) и голосом в "первую смену", а все остальное время ИИ коммуницирует с алчущими прелестей общения кожаными. Причем подбор лиц идет строго таргетированный.
Продолжим в следующем посте...
Метаверсище и ИИще 2024-01-19 14:00:54
ИИ с Метаверсом наперевес возвращается!
Каникулы явно удались, три недели пляжного волейбола на песке приводят к тому, что у тебя болит каждая клетка кожаного тела и любое движение причиняет невыносимую боль. Это заставляет почувствовать себя живым и поразмышлять о том, что всех этих "мыслителей" и блоггеров типа меня, ИИ скоро заменит, а вот хорошо координированные резкие движения в сложной погодной обстановке с учетом психологии кожаных участников роботам дадутся еще не скоро. Пока играл, также думал о том, что кожаные с маниакальным упорством делают антропоморфных прямоходящих роботов, которые с точки зрения биомеханики явно неоптимальны. Но у кожаных один кумир - они сами, вот и меряемся сами с собой, хотя стоит подумать о других формах. Не только анатомических, но и ментальных.
Есть еще один плюс в цифровом детоксе. Когда перестаешь потреблять столько информации, начинаешь ее синтезировать - иначе говоря, думать, запускать процесс вспять. И глядя на скорострельные телеграмчики и твитторы, которые строчат короткими очередями типа "ойсмаритечоещё" без всякой попытки вникания, анализа, осмысления и не приведихосподь тестов, понимаешь, что, возможно, кожаные размышления на тему происходящего, взгляд сверху
Что в планах?
Разбор новостей и тестирование годных штук, а не поток двухабзацных анонсиков.
Довольно злобный лонгрид про GPT Store (похоже критическое мышление становится атавизмом, что мы уже прошли с Метаверсиком).
ИИ-волосы, продолжение 3D AI ресерча, вИИзуальный контент.
ИИнди-поспродакшен
Глубокий запой с поминальными постами - пока вы молчали, ИИ пришел за многими из вас.
Умноглупые мысли про AGI - похоже я один отказываюсь оперировать терминами без определения и сыпать прогнозами про то, чего нельзя описать словами. Впрочем, мы уже потренировались на Метаверсике рассуждать о том, чего нет.
Троллинг Эппле
ИИ-одежда, ИИ-музика, ИИ-литература.
Ну и, конечно, все эти виртуальные инфлюенсеры, генеративные модели, суррогатные аватары, ИИ-порно, цифровые нелюди и прочие твари, лезущие к нам из видеокарт.
Годик будет развеселый. И пока реальный мир окончательно сходит с ума (в Дахаб, например, приплыли акулы и серферов повыгоняли с воды), мир виртуальный стремительно этого ума набирается, благо есть на чем учиться. На кожаных ошибках в первую очередь. Об этом тоже поговорим.
Поехали!
Neural Shit 2024-01-19 11:23:21
Нейроблогеры уже были, нейропесни были, даже нейропорево на реддите часто проскакивает. Сегодня наткнулся на НЕЙРОПОДКАСТЫ. Нейронки сами обсуждают ИИ, геймдев и прочие ништяки.
А еще помимо этого автор пилит свою 2D MMORPG на чистых сях в опенсорс (безумец, моё увожение!).
Гляньте его канал, оче годно!!!
эйай ньюз 2024-01-19 11:18:47
LLaMa 3 уже тренируется
Марк анонсировал сегодня у себя в IG, что уже тренирутся LLaMa 3, и на подходе другие клёвые AI модели.
Чтобы все это добро эффективно тренировать, по ходу строится огромный кластер, в котором будет 350,000 H100 до конца года. Общий размер компьюта будет примерно равен 600,000 H100, если перевести всё в H100 эквивалент.
@ai_newz
gonzo-обзоры ML статей 2024-01-19 08:44:07
"Meta is training Llama 3 now, and it will have code-generating capabilities, he says. Like Google’s new Gemini model, another focus is on more advanced reasoning and planning abilities.
“Llama 2 wasn’t an industry-leading model, but it was the best open-source model,” he says. “With Llama 3 and beyond, our ambition is to build things that are at the state of the art and eventually the leading models in the industry.”
gonzo-обзоры ML статей 2024-01-19 08:35:19
Продолжение темы.
“We’ve come to this view that, in order to build the products that we want to build, we need to build for general intelligence,” Zuckerberg tells me in an exclusive interview. “I think that’s important to convey because a lot of the best researchers want to work on the more ambitious problems.”
https://www.theverge.com/2024/1/18/24042354/mark-zuckerberg-meta-agi-reorg-interview
Neural Shit 2024-01-19 06:54:41
Один из моих любимых жанров нейротворчества — это когда с помощью нейронок "оживляют" персонажей разных мультфильмов.
Вот тут Бивис и Баттхед очень круто получились, наверн лучшее из того, что видел
Neural Shit 2024-01-19 04:50:56
Там Runway выкатили Multi Motion. Ента штука позволяет управлять несколькими областями при генерации видео. Выглядит охуенно!
эйай ньюз 2024-01-18 11:18:28
Вот так.
Credits: D. Vorotyntsev
@ai_newz
эйай ньюз 2024-01-18 10:57:29
Всем бы в 60 быть в такой форме! Талантливый человек — талантлив во всем.
@ai_newz
Neural Shit 2024-01-18 06:02:02
AGI уже здесь!
Neural Shit 2024-01-18 00:06:53
Там Product Lead google colab пишет, что скоро будут ограничивать использование WebUI ноутбуков :(
Automatic 1111 и иже с ним — пока.
gonzo-обзоры ML статей 2024-01-17 22:37:14
Сегодня в Давосе было интервью с Сэмом Альтманом и Сатьей Наделлой (https://www.economist.com/subscriber-events/a-conversation-with-openais-sam-altman-and-microsofts-satya-nadella-hub).
В целом никаких откровений вообще. GPT-5 будет more general и умнее в целом. Но когда -- не сказали. OpenAI в партнёрстве с MS будут делать так, чтобы на платформе можно было заработать больше денег, чем зарабатывает сама платформа. Регуляция в конечном счёте какая-то нужна и к моменту появления AGI хорошо чтобы она была, но преждевременно она может много чего загубить. Опенсорс важен. Когда AGI и что это такое непонятно.
У OpenAI вроде как есть в договоре с MS что-то про когда борд решит, что они достигли AGI, то коммерческие дела с MS здесь закончатся. Но они всё равно хотят продолжать коммерциализацию технологий, может только на других условиях, это и надо будет в тот момент пересмотреть.
Альтман за technological prosperity. Intelligence costs will fall, energy will be widely available and clean.
На безопасность обращают внимание. "We delay things or decide not to ship things all the time." Так, GPT-4 открыли только через 7-8 месяцев после её обучения.
В общем можно было не смотреть.
gonzo-обзоры ML статей 2024-01-17 19:24:06
Пока просто новость
https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
Результат между серебряной и золотой медалями на одимпиадных геометрических задачах.
С открытым кодом: https://github.com/google-deepmind/alphageometry
AlphaGeometry is a neuro-symbolic system made up of a neural language model and a symbolic deduction engine, which work together to find proofs for complex geometry theorems.
эйай ньюз 2024-01-17 19:17:18
PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding
Кайфовая работа вышла. Позволяет генерить людей в разных стилях и амплуа по заданным фотографиям. Вон смотрите как кайфово ЛеКуна нагенерили.
Но, в отличие от DreamBoth и всяких LORA, в этой работе избавились от надобности файнтюнить модель под каждую новую личность.
Во время тренировки мы выдираем из входных фоток эмбеддинги, кодирующую личность, и учим диффузионную модель использовать их в качестве кондишенинга для генерации желаемых личностей.
А во время инференса, мы можем подать набор фотографий нового юзера и сгенерить для него аватарки без дополнительных тренировок. Это быстро и более эффективно, чем файнтюн под каждого юзера.
Идея простая и изящная, строящаяся на том, что давно существуют сетки, способные выдирать фичи, кодирующие внешность человека. Например, для ре-идентификации.
Сайт проекта
Код
Можно попробовать демки на HF:
1. Демо в реализмем
2. Демо со стилизацией
@ai_newz
Сиолошная 2024-01-17 16:42:01
Это я, когда делаю одну активность, и по ходу дела выходит 2-3 крутых статьи, которые не то что разобрать надо — по ним стоит целый длиннопост на Хабр писать
Ok, Honey....
Axis of Ordinary 2024-01-17 16:40:51
Google DeepMind announces AlphaGeometry: an AI system that solves Olympiad geometry problems at a level approaching a human gold-medalist. 📐
It was trained solely on synthetic data and marks a breakthrough for AI in mathematical reasoning.
AlphaGeometry is a system made up of 2️⃣ parts:
🔵 A neural language model, which can predict useful geometry constructions to solve problems
🔵 A symbolic deduction engine, which uses logical rules to deduce conclusions
Both work together to find proofs for complex geometry theorems.
📊 In a benchmark test of 30 recent Olympiad geometry problems, AlphaGeometry solved 25 - surpassing the previous state-of-the-art approach called Wu’s method, which solved 10.
Notably, it solves all geometry problems in the 2000 & 2015 Olympiads, under human expert evaluation.
🔍 Unlike many prior methods, AlphaGeometry can produce human-readable proofs.
The code and model are open source: https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
Время Валеры 2024-01-17 14:54:04
Один из самых сложных и недооцененных навыков – это способность эффективно работать, когда есть достаточно времени.
Работая в Яндексе, у меня был подающий надежды, перспективный, но неопытный МЛ лидер Игорь, известный также как https://t.me/seeallochnaya. В его команде было два стажера, обучающихся на практике, в то время как Игорь сам учился на их опыте. За три недели до нового года я поручил им задачу: создать прогноз доходов на следующий год и представить его на первой неделе нового года для включения в дашборд, что можно было сравнивать план и факт
Задача, незнакомая для новичка, занимала по прикидкам 1-3 дня. Она также требовала запроса доступов к двум файлам, у меня. Я упомянул об этом сразу.
Через неделю доступы так и не были запрошены, и я потратил пару часов на создание прогноза самостоятельно. Через четыре недели, в конце праздников, доступ наконец запросили. Я доступ конечно не дал, предпочитая отдыхать, а не проверять почту.
После праздников я запросил результаты работы, получил ответ что будущего нет и пришлось делать самое сложное - собрать с командой на встреча и пообшаться
Со слов Игоря
Там на встрече мы обсудили почему сложилась такая ситуация, пытались понять, где возникла мисскоммуникация, и что нужно делать в будущем, чтобы такого не происходило, а также обсудили план действий. я помню что у одного из стажеров были негативные эмоции, но не помню из-за чего. Я помню что спросил чувствует ли он давление что я токсичил или надавил, заставлял что-то делать, сказали нет.
Я со встречи вынес что во первых надо иногда со сроками давить, и во вторых пытаться понять, к какой категории люди относятся - кто сам заинтересован, кого надо подсушивать и напоминать и кого надо продавливать. И от этого строить свою стратегию общения. Также Валера сказал что надо делать промежуточные майлстоуны не более чем на 3 дня (со стажерами по крайней мере, дольше - они плавают), и синкаться по ним, чтобы раньше распознавать проблемы.
Очевидно что именно этот опыт помог Игорю в дальнейшем добиться успехов и создать популярный канал
Сиолошная 2024-01-17 11:45:56
Любимый момент интервью, Salty Altman невербально отвечает на вопрос про увольнение.
Смотреть со звуком!
Сиолошная 2024-01-17 11:45:25
Свежее интервью Sam Altman и Anna Makanju Блумбергу в Давосе, США
Пара интересных моментов:
— на неделе новости трубили, что OpenAI убрали из своих правил использование ChatGPT для «military and warfare», что вызвало вопросы у публики. Поскольку новости никто не читает (как и мои посты
— В свете иска от NYT касательно закопирайченного контента, Sama подкинул интересную мысль: они в целом не против исключить какие-то данные из своих тренировочных выборок, но просто не могут это сделать — часто новости перепечатывают по 100 раз на других ресурсах. Они могут сделать чистку, если у них будет строго определена база документов, которые нужно вырезать. Для этого, как вы понимаете, нужно, чтобы в OAI передали данные
— Сегодня вся движуха вокруг данных и партнёрство с владельцами прав на тексты натолкнула меня на следующую мысль: вероятно, тренировка GPT-5 ещё не началась (но конечно же идут эксперименты), и сейчас как раз собирают и чистят данные, и заключают партнёрства, чтобы подумать наперёд. Что нельзя использовать — выкинут, что рисковано — свяжутся с изданием. Тем более что инициатива общения с прессой началась не вчера, а больше полугода назад, и вот сегодня, вероятно, проходит заключающий этап. То есть GPT-5 начнут тренировать в ближайшие полгода. А может я брежу и это не так
— полгода назад в интервью Bloomberg Altman говорил, что совет директоров может его уволить, и это хорошо, это правильно. Ведущий тут отшутился, мол, ну и чё, как дела
— и последнее: Altman считает, что в будущем будет 2 основные ценности — это интеллект (базирующийся на вычислительной мощности) и энергия, которая эти мощности и питает. Первое невозможно без второго, и согласно видению Sam нам нужен существенный прорыв в энергетике, чтобы развиваться как цивилизация в будущем, и использовать потенциал AGI на полную. Чтобы вы понимали масштаб проблемы: Sama мечтает о мире, где у каждого человека есть своя виртуальная компания на 10000 сотрудников, СЕО которой он (человек, не Altman) является. Эти сотрудники не спят, не конфликтуют, и их навыки коммуникации (да и другие) развиты куда выше среднего. В каком мире бы мы тогда жили? Это загадка, никто не знает ответа, но мы не сможем прийти в это состояние, если будут проблемы с энергией, питающей машины
Сиолошная 2024-01-16 16:21:13
OpenAI наконец-то подвели итоги конкурса Democratic Inputs for AI, анонс которого был в мае 23го, а результаты ожидались в октябре.
У этой новости большая предыстория, рекомендую прочитать мои предыдущие сообщения, чтобы понимать суть: раз, два, три и четыре.
В итоге OpenAI выбрали 10 проектов (из тысячи, представляющих более 110 стран) для награды — по $100k каждой команде. По каждому проекту доступен полный отчёт (см. ссылки и описания тут), а также код и данные (!!!). В качестве обзора всех 10 проектов можно посмотреть 2.5-часовую запись с приватного DemoDay, проведённого в сентябре. Я ещё не смотрел, может что-то интересное подрежу.
—————————
Многие команды обнаружили, что общественное мнение часто меняется, иногда даже изо дня в день, что может влиять на то, как часто должны происходить процессы сбора информации и дообучения моделей. Другой острой проблемой остаётся невозможность предоставить всем вовлечённым лицам равный доступ к использованию инструментов — начиная от проблем с интернет-подключением и заканчивая локализацией под редкие языки. Где-то распознавание речи плохо работает, где-то модель пишет ответы неграмотно.
Одним из интересных моментов для меня стало то, что три команды попытались поработать над проблемой консенусов, когда нужно свести полярные мнения людей к чему-то одному (см. вот этот репорт). Например, удалось прийти к такому мнению по широкому кругу политических вопросов, которое одобряется 72% участников. Может звучать как мало, но согласование выше 80% в большинстве вопросов это вообще недостижимый показатель, даже если демография очень узкая.
—————————
Ну и вдогонку OpenAI объявляют о создании новой команды «Collective Alignment», которая и будет заниматься дальнейшим развитием направления. Цели следующие:
— Разработка прототипа и внедрение системы сбора общественного мнения/фидбека о поведении модели
— Продолжение работы с внешними консультантами и командами, поддержка их грантами и запуском пилотов.
(Вакансия на инженера тут, Annual Salary Range $295,000—$440,000)
—————————
Интересно, увидим ли что-то в преддверии выборов в 2024м году? Времени не так много осталось
Neural Shit 2024-01-16 07:09:24
Киберпанк, который мы заслужили
Neural Shit 2024-01-16 05:20:48
А кому-нибудь удавалось джейлбрейкнуть яндексовский YaGPT 2 или сберовский GigaChat, чтобы вылечить их от сои или заставить про политику условную писать?
gonzo-обзоры ML статей 2024-01-16 00:00:42
Optimizing Distributed Training on Frontier for Large Language Models
Sajal Dash, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang, Prasanna Balaprakash
Статья: https://arxiv.org/abs/2312.12705
Интересная статья про то, как обучали большие LLM на суперкомпьютере Frontier (https://www.olcf.ornl.gov/frontier/), номер 1 в рейтинге TOP500 (https://www.top500.org/lists/top500/list/2023/11/).
Frontier интересен тем, что он построен на процессорах и GPU от AMD, EPYC и MI250X (https://www.amd.com/en/products/accelerators/instinct/mi200/mi250x.html) соответственно. Второй суперкомпьютер в TOP500, Aurora, кстати, построен целиком на Интеле (тоже процы и GPU). И только третий, Eagle, на NVIDIA H100 и Xeon.
Обучали модели 22B, 175B (размер GPT-3) и 1T. Две последние на 1024 и 3072 MI250X (из 37,888).
Самое интересное для меня в этой истории -- это как именно обучали на этих карточках, потому что долгое время пользоваться ничем кроме Нвидии и CUDA было невозможно, а тут пошли валом работы про обучение больших сеток на AMD. Можно вспомнить финский суперкомпьютер LUMI (https://t.me/gonzo_ML/2084), поддержку в HF Transformers (https://t.me/gonzo_ML/2167), обучение RetNet в MS (https://t.me/gonzo_ML/1754). Наконец какая-то реальная конкуренция, кажется. Ну и большой масштаб и возникающие там проблемы тоже интересны, конечно.
В mixed precision обучении нужно 6 байт на каждый параметр модели (4 для модели в fp32, 2 для вычислений в fp16), 4 байта на параметр оптимизатора (для сохранения момента в Adam в fp32), и 4 байта на градиент каждого параметра (fp32). Итого, для 1T модели надо 14T параметров. Каждый узел Frontier содержит 8 MI250X каждый с 64 GB HBM, так что без model parallelism не обойтись.
Возможны варианты. В Tensor parallelism большие матрицы весов разбивается по строкам или столбцам. В Pipeline Parallelism модель разбивается по слоям на несколько живущих на одном GPU этапов, в каждом из которых несколько слоёв. Sharded Data Parallelism похож на классический Data Parallelism, но вместо того, чтобы хостить копии целой модели на каждом устройстве (анрил), на каждом устройстве размещается только вычисляемый в данный момент слой. Разные методы можно смешивать, получая гибрид (минутка рекламы, в моей книге про JAX (https://www.manning.com/books/deep-learning-with-jax) есть пример смешивания data + tensor parallelism при обучении, ну и вообще про параллелизацию получились самые большие главы, и их целых три). В текущей работе для лучшей утилизации ресурсов используют 3D parallelism включающий tensor, pipeline, и data (обычный и sharded) parallelism.
Взяли фреймворк Megatron-DeepSpeed с поддержкой разных видов параллелизма (tensor, pipeline, data, sharded data parallelism). В оригинале он заточен на NVIDIA (и является форком их Megatron-LM с добавленными фичами), в работе его адаптировали под AMD ROCm.
Адаптация включала:
1) Конвертацию CUDA кода в HIP код через утилиту hipify, компилирование so через hipcc и привязку к питону через pybind.
2) Подготовку DeepSpeed Ops (расширений CUDA, полученных в оригинале JIT компиляцией) под ROCm и отключение JIT на всякий пожарный.
3) Инициализацию PyTorch Distributed Environment хостом из SLURM.
4) Работу с AMD над получением ROCm версий нужных библиотек, типа APEX для mixed precision, FlashAttention и FlashAttention2 (для этих использовали Composable Kernel library, https://github.com/ROCm/composable_kernel).
Экспериментировали с разными стратегиями распараллеливания и их параметрами, а также с гиперпараметрами обучения, подобрали оптимум. За деталями и наблюдениями вэлкам в статью.
В итоге получили рабочую конфигурацию, достигающую 32-38% от пиковых FLOPS. Через Roofline Analysis (писал про это когда-то тут https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664#8dd5) показали, что обучение не memory-bound. Потестировали скейлинг, получили 100% weak scaling и 87.05% strong scaling efficiency на 1T модели.
gonzo-обзоры ML статей 2024-01-16 00:00:42
Каких-то обученных моделей не выкладывали, цель была не в этом. Надеюсь, это всё дойдёт до опенсорса и поддержка AMD в итоге везде выйдет на достойный уровень. Ждём, надеемся.
Пользуясь случаем, хочу напомнить, что у канала теперь есть Патреон (https://patreon.com/GonzoML). Вступайте в ряды Фурье!