эйай ньюз страница 2. Показано 50 статей из 595
2024-03-20 12:07:35
Stability.ai выкатили Stable Video 3D: 3D mesh из одной картинки через костыль в виде генерации видео
По одной фотографии Stable Video 3D генерит видео с вращающимся объектом, достраивая недостающие планы. Можно задать самому с каких углов генерить облет вокруг объекта. Получается видео, которое затем можно использовать для обучения NeRF и экстракции 3d меша. Сама моделька строится и файнтюнится из базовой Stable Video Diffusion.
Если использовать апскейлер (5 очков грифиндору за смекалку), то качество видео действительно улучшается, но вот меш все такой же кривой и бесполезный.
Модель влазит в 4090 (24GB VRAM), но с трудом. Нужно выставить параметр `decoding_t = 5` в `simple_video_sample.py`.
Сайт проекта
Модель и код
@ai_newz
2024-03-19 21:02:16
Чел в кожаной куртке : “ChatGPT момент для роботов может быть уже за углом”
На вчерашнем ивенте Дженcен Хуанг, CEO Nvidia, представил новые GPU, а также анонсировал GR00T - Generalist Robot 00 Technology.
GR00T (отсылка к Марвелу) позиционируется как foundation модель для будущих роботов, от простых манипуляторов до робо-гуманоидов. Моделька способна обрабатывать мультимодальные данные, такие как видео, текст и другие сенсоры, выдавая действия робота в ответ на различные ситуации. В придачу с ним можно разговаривать и голосом – LLM-ка все осилит. Кроме того, GR00T может обучаться эмулировать действия, наблюдая за человеком.
Однако данных для тренировки таких роботов не наберешься, как я уже говорил, например здесь. Поэтому Nvidia представила обновленный Isaac Lab – среду для обучения роботов c помощью RL в симуляции, максимально приближенной к реальному миру.
Так например натренировали Isaac Manipulator – это умная роборука. Эта штука может выполнять простые задания получая на вход текстовые указания и на лету адаптироваться к изменяющимся условиям, находя новое решение для задачи. Скоро на заводах тоже пройдут лэйофы, ведь люди больше не будут нужны : )
А гоняется моделька GR00T на мобильном GPU-чипе Jetson Thor (800 TFlops в FP8), специально разработанном для управления роботом с минимальной задержкой.
Похоже, Nvidia хорошо так притопила в разработке роботов. В ближайший год стоит ждать больше и больше новостей про умных гуманоидов.
@ai_newz
2024-03-18 22:50:44
А вот так выглядит сам суперчип GB200.
Подробности: https://blogs.nvidia.com/blog/2024-gtc-keynote/
@ai_newz
2024-03-18 22:27:16
Как всегда бывает на презентациях NVIDIA, слово "быстро" - это вчерашний день.
Но не радуйтесь раньше времени - цены будут ядреными! Если H100 стоит около $40k, то GB200 будет минимум в 4-5 раз дороже.
Да и не достать их будет простым смертным. Первыми их получат Amazon, Google, Microsoft и Oracle. Известно, что Амазон уже планирует кластер на 20,000 GB200.
А потребительские версии Blackwell ожидаются не раньше 2025 г.
Ещё посты для интересующихся:
1. Про H100
2. Про H100 NVL192GB
3. Про GH200
@ai_newz
2024-03-18 12:44:31
Тут еще и сделка между Google и Apple назревает.
Яблоко хочет получить лицензию на использование моделей Gemini в новых фичах, которые появятся на iPhone в этом году. Gemini планируют использовать для более тяжелых задач, и гонять модели в клауде, а не на девайсе. Свои же модели Apple пилят под телефон.
В целом, Apple либо позади в гонке LLM, либо они очень секретно двигаются.
@ai_newz
2024-03-18 12:27:31
Похоже, Apple все же подарит Siri мозг!
Помните недавно прошелся слух, что готовится Apple GPT?
Так вот, Apple только что купила стартап Darwin AI, который работает над уменьшением и ускорением AI моделей. Тим Кук уже успел пообещать "открыть новые горизонты" в этом году, и похоже, все-таки у нас будет возможность пользоваться нейросетью от эпл локально на новеньком айфоне.
Apple всегда заботилась о безопасности и приватности, так что возможность общаться с ботом и редактировать фотки локально была бы пушкой, да и за облачные вычисления платить не придется, как это решил сделать Samsung.
Времени до конца года осталось не так много, интересно, успеют ли.
@ai_newz
2024-03-18 10:23:17
Никогда такого не было и вот опять - британские учёные Washington Post выяснили, что BigTech платит в разы лучше академии
Ли Фэй-Фэй, типа крестной мамки ИИ (эта тетя еще и была научным руководителем Андрея Карпатого), закинула тему о бабле на нацпроект по AI перед Байденом. Суть в том, чтобы университеты cмогли догнать корпоративных монстров типа Meta, Google и Microsoft, которые уже натренировали кучу моделей, пока академия пыталась выжить на остатках грантов.
Ребята, конечно, совершили высадку на луну с 4kb RAM, но пока Meta закупает 350к H100, бедняги из Стэнфорда пытаются что-то выжать из своих 68... штучек. Я уже даже не говорю про разницу в з/п между индустрией и академией - можете глянуть levels.fyi сами.
Чтобы хоть как-то замутить свой исследовательский хайп, ученым приходится ломиться в биг-теки, которые в ответ задают направление ресерча. Как результат, большая часть крутых исследований теперь идет под флагом индустрии, а университеты вынуждены довольствоваться крохами. Чтобы это проверить, достаточно вспомнить хоть бы одну Foundation модель для Language или Computer Vision, которую натренировали в университете - мне сходу на ум ничего не приходит.
А вообще, Open source, конечно, задает жару всяким гуглам, только вот мощностей все равно катастрофически не хватает.
Ли уже каталась по Вашингтону, пытаясь пробить финансирование на "GPU для народа", чтобы хоть как-то уровнять шансы. В то же время, корпорации, типа Microsoft, уже подкинули кое-какие ресурсы ($20M) в общий котел, но это, по большому счету, капля в море.
Ситуация настолько критична, что почти 70% PhD по AI уходят в индустрию, искушенные зарплатами и возможностью работать над чем-то крутым. А 10 лет назад эта цифра была 21%. И вот они стоят перед выбором: сидеть в академии и пилить науку за гроши или перейти на темную сторону и ресерчить за бабло. Те, кто решает остается, приходится либо договариваться с индустрией, либо наблюдать, как их темы уплывают к тем, кто может позволить себе больше железа и данных.
По себе знаю, в универститетах круто в плане свободы выбора тем исследований, но там совсем нет ресурсов на тренировку современных больших моделей...
@ai_newz
2024-03-18 07:21:04
🔥 Grok: 314B параметров. 8 экспертов. Нормально!
Код должен быть тут https://github.com/xai-org/grok
@ai_newz
2024-03-17 19:48:19
Илонка, как и обещал дропнул веса Grok. magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%http://2Facademictorrents.com%2Fannounce.php%3Fpasskey%3Decac4c57591b64a7911741df94f18b4b&t
Я правда пока не понял, где код. Нужно поискать...
@ai_newz
2024-03-16 11:34:44
🎥Video Editing via Factorized Diffusion Distillation
Коллеги из Meta AI выпустили новый метод для редактирования видео. Все это поверх нашей модели Emu. Если вкратце, то архитектура представляет собой комбинацию Emu Edit и Emu Video (Temporal слои) поверх базовой модели Emu.
Тренируют модель с помощью двойной дистилляции с дискриминаторами. Студент состоит из комбинайии Emu Edit + Emu Video , то есть умеет и генерировать видео и менять изображения покадрово. А учителя два: 1) Это предобученный Emu Edit, который меняет каждый кадр по инструкции, 2) предобученный Emu Video, который тупо генерит видео по заданному промпту.
Таким образом, студент выучивает консистентно менять кадры на видео.
ArXiv
Сайт проекта с примерами
@ai_newz
2024-03-15 13:26:57
Кажется, кто-то нащупал золотую жилу
Мужикам с зоны есть чему поучиться у африканских гуру.
@ai_newz
2024-03-15 11:48:07
В придачу вот NeRF (в 4K) с облетом по внутреннему дворику Швейцарского Национального Музея в Цюрихе (у нас как-то был корпоратив внутри этого двора
Если откроете видео на ютубе, то сможете мышкой контролировать направление камеры.
Про нерфы подробнее я писал тут и тут.
@ai_newz
2024-03-15 11:41:07
Mapillary - уличные карты на стеройдах
Думаю, что не все слышали о картах Mapillary (да я и сам не знал, что есть такой отдельный продукт).
Mapillary - это сервис который позволяет просматривать виды улиц, тыкнув на карту, основываясь на краудсорсинговых видео и фотках. Фирма существует с 2013 году и была приобретена Meta в 2020 году.
Mapillary предлагает изображения улиц, аналогичные Google Street View, причем позволяет пользователям загружать фотографии с любой камеры и использовать их для совместного создания вида улиц по всему миру. То есть там можно прогуляться не только по автодорогам, как в Google Street View, но и по мелким пешеходным улицам, т.к. любой пользователь может загрузить свое видео или фото.
Под капотом сервиса бегают алгоритмы CV, для создания консистентного экспириенса прогулки по улицам и склеивания фоток. А вчера на карту добавили еще и Нерфы! То есть любой может отснять локацию, следуя инструкциям, и через пару дней на карте появится 3D нерф, на основе его снимков!
Я снял для вас короткий видос о том, как работает апка. Вот тут можно потыкаться в карту самому https://mapillary.com/app
@ai_newz
2024-03-14 13:18:02
Когда стараешься не наговорить на пару многомиллионных исков.
П.С. Это Мира Мурати, CTO OpenAI.
Она недавно давала итервью WS о Sora.
Несколько ключевых моментов оттуда (помимо сомнительных данных для обучения):
- Sora выйдет в течение 2024 года
- Вместо часов, Мира отметила, что требуется лишь несколько минут для создания 20-секундного видео в разрешении 720p.
- Самая большая проблема AI-генерируемого видео это консистентность между кадрами, и Sora особенно хороша в этом.
- Политика фильтрации контента, аналогичная Dall-E, будет применяться и к Sora для предотвращения дезинформации, включая ограничения, чтобы запретить Sora генерировать изображения публичных фигур.
Полное интервью.
@ai_newz
2024-03-14 13:05:31
Есть сомнения по поводу того, на каких данных тренировалась SORA.
Public data из инстаграма - это user data, на которой не очень-то легально тренироваться, без консента владельцев фотографий (особенно если там есть лица). Думаю, Мира потом могла пожалеть, что ляпнула это.
@ai_newz
2024-03-11 20:22:21
А вот это интересно. Маск сказал, что они заопенсорсят свою LLM Grok на этой неделе.
Вы же слышали, что Маск пошел в атаку на OpenAI и даже подал в суд на них (если коротко, то из-за того, что они превратились из Open в Closed).
Любопытно увидеть, что же там у Grok под капотом. Модель, конечно, не Gpt4 и не Claude3 уровень, но опенсорс — это всегда замечательно.
@ai_newz
2024-03-10 14:48:28
pinned a photo
2024-03-10 13:00:40
🔥PIXART-Σ:
Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
Китайцы из Huawei опубликовали новую text2image модель, которая может генерить картинки в 4к! Результаты выглядят очень достойно.
Архитектура основана на DiT (как и у Stable Diffusion 3), но с модифицированным аттеншеном. Кажется, теперь все новые text2img и yext2vid будут на базе DiT, UNet уходит в историю.
Сайт проекта
Демо (только в 1024p)
Кода пока нет
@ai_newz
2024-03-09 13:38:55
Вчера в Тбилиси получилась отличная встреча в шикарной компании!
Было много интересных бесед про карьеру, работу в ресерче, учебу за границей, да и просто про жизни. Все были очень заряженные, обменивались опытом и идеями.
Ну, а во время всего этого было выпито немало замечательного грузинского вина!
Я часто бываю в разных странах, и мне очень нравится организовывать такие сходки. Спасибо всем, кто пришел вчера. А с теми, кто не смог прийти, надеюсь, ещё не раз пересечёмся в других локациях!
#personal
@ai_newz
2024-03-08 15:04:31
Друзья, я сейчас в Грузии! 🇬🇪 Обалденная страна.
Давайте устроим сходку сегодня вечером в Тбилиси. Напишите в комментариях, если вы тут и хотите пересечься. Много людей вместить не сможем, но на человеке 8-10, наверное, сможем найти место.
#personal
@ai_newz
2024-03-07 20:59:22
Никогда такого не было. В этот раз статья на ECCV была написана сильно заранее. Засабмитили одну из статей за 6 минут до дедлайна (буквально 5 минут назад).
Обычно все как-то в xx:59. Это мой личный рекорд!
@ai_newz
2024-03-06 16:13:53
VastGaussian — SOTA по реконструкции огромных 3D сцен
Гауссовские сплаты конкретно заняли поляну Нерфов в 3D реконструкции. До этого момента были проблемы с использованием сплатов для больших сцен, но теперь и их решили. Получается рендеринг посто высочайшей детализации. Ещё и real-time! Смотрите видео.
Сайт проекта с деталями
@ai_newz
2024-03-06 13:52:44
Авторы попробовали вывести scaling law. Из графика видно, что если дальше докидывать тренировочные данные (ось X) либо увеличивать размер модели (размер кружочков), то ошибка продолжит падать.
@ai_newz
2024-03-06 13:48:46
SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation
Китайци подвезли СОТУ по монокулярному Pose and Shape estimation. То есть по одному кадру предсказывается 3D поза и форма человека. Покадрово можо применить к любому видео-потоку.
Тут как всегда зарешал масштаб модели и данных. Взяли трансоформер ViT-H на 662M параметров и тренировали на 32 датасетах с 4.5М фреймов, что как бы тоже дохрена для этой задачи.
ViT-H по меркам современного CV не такой уж и большой, но больше чем, все что пробовали на задаче Shape&Pose Estimation до этого, да и довольно шустрый. Скорость инференса даже почти риалтаймовая получилась - 17.5 FPS на Nvidia V100.
Код и веса на гитхабе
Сайт проекта
Статья
Demo на HF
@ai_newz
2024-03-05 13:33:22
🔥Stable Diffusion 3: статья с деталями
А вот и зарелизили папиру про SD3, о которой я уже хинтил ранее. Называется "Scaling Rectified Flow Transformers for High-Resolution Image Synthesis".
https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
@ai_newz
2024-03-04 17:08:40
MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion
Тут подвезли диффузию для генерации 3d motion любых персонажей (людей и животных), обучаясь только на 2D данных!
Качественных Mocap 3D данных движения людей и животных очень мало. Например, их почти нет для таких видов спорта как баскетбол или танцев, а уж тем более для животных. Причина тому — дороговизна и недобство сбора таких данных (нужно оборудование, нацеплять трекеры на тело и тд.). А генерировать 3D motion очень хочется - например для анимации, игр и VR.
В этой статье предлагается научить дифуузию генерить 2d траектории движения, а затем использовать эту сетку, чтобы генерить 2d проекции трехмерного моушена с разных камер. Чтобы проекции были консистентными предлагается дополнительной блок, который после каждого шага диффузии решает задачу оптимизации и находит ближайший 3D скелет, который лучше всего удовлетворяет всем проекциям, затем это решение опять проецируется на все камеры и кормится в следующий шаг дифуузии. В итоге на выходе имеет полноценный 3D моушен, хотя в тренировке модель никода не видела 3D!
Сайт проекта
Статья
@ai_newz
2024-03-04 15:01:30
Кстати, нашу статью Cache Me if You Can по ускорению text2img диффузии приняли на CVPR 2024!
На прошлой неделе пришли финальные рецензии, но я забыл об этом написать. Вознаграждение за работу всегда приходит с небольшой задержкой, когда выносят решения о публикации статьи на конференции :)
Надеюсь, в этом году опять слетать на CVPR, на этот раз конфа будет в Сиэттле. Если будете там тоже — пересечёмся, обсудим папиры.
@ai_newz
2024-03-02 17:25:25
Кажется, всем уже стало очевидно, что для создания топовых моделей кроме тысяч видеокарт нужны и петабайты хороших данных. И компании, которые имеют много данных будут стараться монетизировать это.
И вот как раз прошла новость о том, что Reddit заключил сделку с Google - им продают права тренировать модели на всем контенте с Reddit. По слухам, это будет стоить Гуглу $60M в год. Reddit выходит на IPO в ближайшее время, и им очень хочется подкачать свой кеш флоу перед этим, чтобы увеличить оценку (говорят, что она будет ~$5 млрд).
Так что, если вы хоть когда-то постили на Reddit, то новая итерация Gemini сможет заговорить вашими словами. Кстати, наверное все видео и картинки с Редитта тоже закинут в топку для тренировки гугловских Generative AI моделей. Не понятно только, как они будут отфильтровывать вещи, на которые у самих юзеров реддита не было прав копировать и постить на форуме. И обидно, что за тексты, которые юзеры нагенерили на сайте, они не получат ни копейки.
П.С. я думаю, Реддит и так уже спарсили все, кому не лень, но теперь это будут делать и крупные игроки официально.
@ai_newz
2024-02-29 15:10:03
Staff Research Scientist: Персональный апдейт
У меня ещё есть классная новость, которой я бы хотел с вами поделиться! В понедельник я запромоутился до E6, иными словами я теперь Staff Research Scientist в Meta GenAI.
Удалось это благодаря очень широкому импакту от проекта в Generative AI, который я сам предложил, вел и завершил в прошлом году. Проект пока не публичный, поэтому я не могу рассказать о нем детально.
До этого я был на терминальном уровне - Senior Research Scientist, на котором многие застревают навсегда. Требуются дополнительные усилия и персональные качества (я о них писал тут), чтобы выйти из этого лимба и стать Стаффом. Зато теперь у меня открылся новый ladder E6+, качать таланты в котором на порядок сложнее чем между Джуном и Синьором. Но в этом есть и челлендж и возможность дальнейшего развития!
Exciting stuff!
#карьера #мойпуть
@ai_newz
2024-02-29 11:17:27
Инженерные грейды в Big Tech (ч2)
Все инженеры глобально делятся на две категории: просто инженеры (E3-E5) и Стафф+ (E6+) инженеры. Тут под инженерами я также имею в виду и сайнтистов - их глобально не отделяют и грейды у них такие же.
Когда в компании говорят про "leadership" роли, то обычно подразумевают именно Стафф+. Количество E6+ инженеров и сайнтистов в компаниях всего примерно 10%-15% .
E6, Staff: С этого уровня начинается новая игра. Стафф обладает исключительным техническим мастерством, имплементирует самые сложные фичи, решает задачи, которые мало кто может решить. Кроме того от него ожидаются еще и серьезные коммуникативные и лидерские качества. Он сам предлагает новые проекты и лидит их, ставит цели своей команде и влияет на другие команды.
E7, Senior Staff: Тут ожидают все тоже самое, что и на E6, но с еще большим импактом и ценностью для организации. Синьор стафф драйвит идеи от появления до реализации, попутно правильно расставляя приоритеты, понимая стратегию и тренды на масштабе всей компании.
E8, Principal Engineer/RS: Ты признанный эксперт в одной или нескольких областях как внутри компании так и за ее пределами. Твои проекты и идеи имеют влияние на всю компанию, а также на людей из твоей сферы в индустрии. В случае с наукой — ты исключительный эксперт, статьи которого узнают на конференциях. Как пример — Kaiming He, автор ResNet, который был где-то на E8-E9, пока не ушел из Меты в MIT.
Сложность перехода на каждый следующий уровень после Синьора (E5) растет экспоненциально, и количество людей на каждом следующем уровне убывает тоже по экспоненте.
Начиная с E6 появляются архетипы инженеров, например "фиксер", "архитектор", "тех лид", "Coding Machine" и другие. Про это поговорим позже. Но если вам любопытно, то подробнее про E6+ можно почитать на staffeng.com, там собраны истории людей на E6+ из разных крупных компаний.
#bigtechlevels #карьера
@ai_newz
2024-02-29 00:46:10
Инженерные грейды в Big Tech (ч1)
Меня часто спрашиваю про грейды в Big Tech компаниях. В MAANG и прочих Биг-Техах существует четка иерархия инженерных уровней, которая определяет ваш карьерный рост и компенсацию. Чем выше ваш грейд, тем больший масштаб импакта от вас ожидается, и тем шире должно быть ваше влияние на коллег вокруг, то есть требуется больше лидерских качеств.
В этом посте поговорим только про инженеров (SWE) и иcследователей (RS), которые, как правило, прокачиваются по одной и той же лестнице грейдов.
Система уровней в Meta и в Google считается христоматийной - она у них почти идентичная. Ее мы и рассмотрим.
E3, Junior: Начальный уровень - это джун, которого наняли без опыта после бакалавра или магистратуры. От джуна ожидается выполнять назначенные таски без большой помощи извне и не бояться задавать вопросы, если застрял. В Мете дают 2 года, чтобы запромоутиться с E3 до E4, иначе на выход.
E4, Middle: Средний уровень, на который хайрят после 1-5 лет опыта либо свежих выпускников с PhD. Мидл берет на себя отдельные фичи в проекте (много тасок) и выполняет их с минимальным руководством извне. На этом уровне ставят жесткие рамки в 3 года, чтобы стать E5.
E5, Senior: Это независимая боевая единица в компании, эксперт в своей сфере. Синьор владеет целыми фичами или системами и успешно завершает свои проекты. Это терминальный уровень в том смысле, что на этом уровне можно оставаться до пенсии. Промоушен на E6 никто обещать не может, так как прыжок с E5 на E6 на порядок сложнее чем с E4 на E5.
Про E6+ расскажу в следующем посте.
#bigtechlevels #карьера
@ai_newz
2024-02-22 15:30:26
Еще генераций от Stable Diffusion 3.
Интересна первая генерация по промпту: “Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat”.
Не понятно, на сколько долго это черипикали, но выглядит так, что модель неплохо понимает пространственную композицию объектов. Точно лучше чем SDXL.
@ai_newz
2024-02-22 15:12:25
🔥Stable Diffusion 3 на подходе!
Stability.ai наконец публично анонсировали то, о чем я упоминал в этом посте.
Модель основана на DiT трансформере (статья от Meta AI), только теперь она text-conditioned, и там будет интересный трюк, как это сделали в архитектуре SD3.
- За счет этого модель умеет круто генерить текст.
- Будут несколько моделй от 800M параметров до 8B. Трансформер хорошо масштабируется.
- В основе лежит формуляция диффузии через Flow Matching (статья от Meta AI). То есть учатся именно на линейных траекториях между шумом и реальными картинками.
Статьи пока нет
Вэйтлист
@ai_newz
2024-02-22 10:36:00
Челик провел любопытное сравнение между трекингом рук в Apple Vision Pro и Quest 3.
На голову надел AVP, а на шею нацелил Quest 3, визуализировал кипойнты и склеил два видео-стрима, которые выдаются в режиме passthrough в обоих девайсах.
Верх: AVP
Низ: Quest 3
Судите сами!
Кстати, команда, которая занимается трекингом есть и в Цюрихе, сидят недалеко от меня.
@ai_newz
2024-02-20 21:36:54
А вот и обещанная двухчасовая лекция от Карпатого про все подробности токенизации в GPT, включая BPE и не только.
Го смотреть!
#ликбез
@ai_newz
2024-02-19 16:54:19
Продолжаем серию постов про основные методы для ускорения диффузионных моделей. [Ссылка на часть 1].
Optimized Sampling Efficiency by new samplers:
Есть подходы на основе численных методов, которые позволяют более эффективно решать дифференциальное уравнение, задающее траекторию обратной диффузии (это когда мы из шума движемся к картинке).
Low-level optimizations:
#ликбез
@ai_newz
2024-02-18 17:03:10
А вот и подоспел новый образовательный контент от Карпатого после его ухода из OpenAI. #ликбез
Андрей написал минимальную имплементацию Byte Pair Encoding (BPE) токенайзера, который широко используется в современных LLM, в том числе и в GPT-4.
Токенайзер - это алгоритм, который преобразует текст в последовательность токенов (целых чисел), перед тем, как его скормить в LLM.
Идея BPE очень простая:
Видео лекция про BPE у Карпатого уже в производстве, он обещал скоро ей поделиться!
А пока можете посмотреть разбор BPE (пост+видео) из NLP курса на HuggingFace: ссылка.
@ai_newz
2024-02-17 13:06:14
Эпичных видео про статьи — это то, что нам не хватало. Смотреть со звуком!
Трудно переоценить влияние работы "Attention is all you need" на развитие области в последние годы. Статья всего лишь набрала 109,160 цитирований, и аттеншн слои используются всего лишь почти в каждой современной архитектуре.
@ai_newz
2024-02-15 19:11:44
OpenAI только что показали очень мощную модель text2video : https://openai.com/sora
@ai_newz
2024-02-15 17:11:57
Из тех-репорта Gemini 1.5: тут сравнивали работу на больших контекстах. 1.5 Pro, конечно, рвет модель 1.0 на больших контекстах.
Кроме того сравнили с Claude 2.1 на контексте в 200kt. Gemini 1.5 выдает Recall 100% - то есть всегда находит скрытые факты в тексте. Причем 100% recall сохранятеся вплоть до длины контекста в 530kt.
А вот Claude 2.1 выдает Recall 98% на 200к токенов.
@ai_newz
2024-02-15 16:57:48
Google анонсировал новую LLM Gemini 1.5 - до 1M токенов!
У гугла с неймингом продуктов и моделей большие пролемы. Давайте разбираться что за 1.5.
То что сейчас крутится у них в проде, и что я недавно тестил, Gemini Ultra (Advanced), - это Gemini 1.0. А тут анонсировали, что уже сделали новую версию - Gemini 1.5.
Что нового?
- Эта модель уже основана на Mixture of Experts (MoE).
- может работать с контекстами в длиной 1M токенов, что на порядок больше чем у конкурентов.
- Причем, токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.
В 1M токенов поместится примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.
Подробности есть в тех-репорте (58 стр). Либо в блог блог-посте.
@ai_newz
2024-02-15 12:54:20
Кажется, Шейхи пытаются задобрить Яна ЛеКуна— его фото вчера красовалось на 828-метровой башне Бурдж-Халифа в Дубае. Сейчас в заливе пытаются сделать большую ставку на развитие AI и привлечение высококлассных учёных в свои институты и компании. Кстати, такая реклама могла стоить от $100к.
Ян ЛеКун как-то отказался читать лекцию в Саудовской Аравии из-за своего атеизма. Но ребята не теряют надежды.
@ai_newz
2024-02-14 22:20:40
Ещё из новостей, Андрей Карпатый ушел из OpenAI, пробыв там всего около года. Говорит, что там нет никакой драмы. Андрей просто собирается больше времени уделить тому, чтобы пилить свои проекты. Так что ждём нового классного образовательного контента от Андрея!
Если пропустили, то вот тут я писал про его последнюю лекцию "Интро в большие языковые модели" — рекомендую.
Интересно, если там все так круто в OpenAI, то почему Андрей ушел после одного года?🤔 Хотя возможно он хотел набраться максимально разнообразного опыта, перед тем как начать работать над своим стартапом. Как мне сказал во время ужина один из VP в Мете: "Чтобы максимально быстро расти, нужно регулярно менять компании либо команды, в которых вы работаете." Золотые слова.
@ai_newz
2024-02-14 22:03:51
Любопытный список. Особенно интересно видеть ожидание, что ML наконец выйдет в физический мир. Это касается стартапов с ML для робототехники и ML для симуляции физического мира.
Ещё прям интересно, что YC заинтересовался стартапами, которые предложат маленькие зафайнтюненые модели как альтернативу огромным LLM с общими знаниями. Кажется тут речь также пойдет о деплое маленьких, но сильных в своей области моделей на edge девайсы.
2024-02-08 13:09:43
Меня разодрало любопытство и уже я подписался на Gemini Ultra.
Первые тесты выглядят гораздо слабее чем GPT-4. По крайней мере фото она гораздо хуже понимает. Вот например сцена по мотивам Attack on Titan с элементами Sailor Moon — Gemini же вообще ничего из этого не понял. А любые фото с людьми он вообще отказывается принимать.
Кстати, может там действительно ещё нет их самой мощной мультимодалки Gemini Ultra Vision, а есть только самые базовые способности понимания фото.
@ai_newz
2024-02-08 12:13:49
Там Google подвез Gemini Ultra в прод. И, конечно, небесплатно, ведь моделька жирная, дорогая.
У меня просят 22 евро в месяц, но к этому ещё идёт 2TB на Google Drive и прочие ништяки типа интеграции LLM с почтой и календарем в будущем. Проапгрейдится можно тут.
Gemini Ultra бьёт GPT-4 на 7 из 8 бенчмарках по тексту и на всех бенчмарках по зрению, если сравнивать с GPT-4V.
Что ж, бенчмарки — это хорошо, и появление серьезной конкуренции для GPT-4 не может не радовать. Однако, бенчмарки имеют свойство попадать в тренировочную выборку, особенно когда речь идёт о триллионах токенов со всего интернета. Так что посмотрим, как Ultra покажет себя на практике, когда тысячи людей протестируют её.
@ai_newz
2024-02-08 04:30:01
К слово о Midjourney, наткнулся на очень стильные генерации Midjourney V6 в стиле Grimes по мотивам шедевров.
Шикарное качество и стиль!
1. “Mona Lisa” by Leonardo da Vinci
2. “Girl with a Pearl Earring” by Johannes Vermeer
3. “The Scream” by Edvard Munch
4. “The Kiss” by Gustav Klimt
5. “American Gothic” by Grant Wood
6. “Self-Portrait with a Straw Hat” by Vincent van Gogh ❤️
___
Кто-то спросил в комментах к предыдущему посту: "Можно ли купить акции Midjourney?". Круче — можно пойти к ним работать.
@ai_newz
2024-02-07 20:55:35
Hardware EM @ Apple ⮕ Head of Hardware @ Midjourney
Давно не обсуждали Midjourney. В твиттере пробежал слух, что мол Midjourney переманила к себе одного из сеньерных чуваков, который возглавлял хардварную команду в Apple, работавшей над Vision Pro.
Я его нашел на линкедине (имя писать не стану), и чел не только работал над Vision Pro, так он еще и у Маска в Neuralink был Member Of Technical Staff по хардвару. То есть парень очень опытный. И вот теперь он стал Head of Hardware в Midjourney.
Интересно, какого рода девайс затевают в Midjourney? Это может быть как что-то вроде VR очков с полностью генерируемым контентом, так и какой-то wearable device, который стримит вам диффузионный контент прямо в мозг
@ai_newz
2024-02-07 11:53:20
Начинаю серию постов про основные методы для ускорения диффузионных моделей, т.к это один из моих главных научных интересов. В первой части поговорим про дистилляцию. Говорить будем в разрезе text2img, но многие из этих техник могут применяться и для видео.
Мы знаем, что диффузии из коробки требуется много прогонов по сети (шагов), чтобы сгенерить картинку во время инференса. Поэтому появился целый пласт работ, которые выдают вообще адовые ускорения. Ну такой вот примерно рецепт усредненный для дистиляции text2image моделей, потому что вариаций масса: берешь огромную модель учителя, которая генерит медленно, но качественно, и учишь студента предсказывать за 1-4 шага выходы учителя, полученные за много шагов. Магическим образом это работает. Но есть много нюансов, понять которые можно из следующих работ:
Model Distillation:
>> Читать часть 2
#ликбез
@ai_newz
2024-02-03 23:15:17
Llama2d: 2D Positional Embeddings for Webpage Structural Understanding
Интересный эксперимент — ребята зафайнтюнили LLaMa на понимание структуры web-страниц. Создали датасет, где из скринов веб-страниц с помощью OCR выдрали видимый текст вместе с его 2D координатами и задетектили, какие элементы на странице являются кликабельными. Затем затюнили LLaMa на этих данных, дополнительно добавив 2d эмбеддинги на вход модели.
Говорят, что так модели гораздо проще понимать страницы, и это более эффективно чем кормить пиксели напрямую в модель, как это можно делать в GPT-V.
Этот новый подход может быть полезен, например, для создания агента который сам сможет бегать по страницам и понимать как с ними взаимодействовать.
Пока ещё Work in progress. Но весь код уже выложили на гитхаб. Будем следить за развитием.
@ai_newz