эйай ньюз - страница 7

2023-06-26 14:51:09

Коллеги из Reality Labs запилили full-body tracking в VR по имеющимся сигналам со шлема и джойстиков. Ещё тут моделируется взаимодействие с предметами (например, сесть/встать со стула).

Работа называется QuestEnvSim: Environment-Aware Simulated Motion Tracking from Sparse Sensors.

Метод натренирован на основе Reinforcement Learning в физической симуляции. То есть во время инференса тоже придется гонять симуляцию и знать примерные 3д меши и позиции предметов, с которыми юзер взаимодействует в реальном мире.

Выглядит правдоподобно, потому что все движения тела соответствуют физическим законам. Из ограничений — это требование гонять симуляцию во время инференса (это ресурсоемкая и небыстрая вещь) и условие, что мы заранее имеем виртуальную копию физического окружёния, в котором действует юзер.

В моей работе Avatars Grow Legs мы решали похожую проблему 3D трекинга тела, но используя кинематический data-driven подход вместо RL и физической симуляции.

@ai_newz

2023-06-23 16:30:06

CVPR день пятый: постеры и демо

В последний день конфы все уже идет на спад. Многие уезжают сразу после обеда, поэтому лучше презентовать свою работу в первые дни.

Я немного походил по постерам, их как обычно было овер-дохрена. На каждой сессии около 400 постеров презентуются одновременно, две сессии в день. Затем еще погулял между стендами компаний и посмотрел демки.

1. Демка DATID-3D
2. Демка DINO v2 с риалтайм визуализацией фичей, выученных моделью.
3. Сервачки с видюшками от Lambda. Обожаю серваки ❤️.
4. Селф-драйвинг пикап Ford от Latitude AI, дочерней компании Форда, которая будет фокусироваться сугубо на Level 3 автопилотах. То есть цель этой фирмы создать не полностью автономную тачку, а только частично, что с точки зрения Ford более реалистично на коротком горизонте.

@ai_newz

2023-06-23 13:13:36

🔥А вот и код SDXL 0.9 подоспел!

В репозитории есть код базовой модели и код рефайнера. Рефайнер — это модель, которая тренировалась на очень качественных картинках и низких уровнях шума. Она предназначена для улучшения выхода базовой модели.

Доступ к весам для исследовательских целей можно запросить по ссылкам [1, 2] в репе. Через пару дней, думаю, они утекут в интернет, если ещё нет.

Кроме того, весь код LDM отрефакторили и причесали (раньше это был просто кошмарный код). Теперь используется Pytorch Lightning. Из этой репы можно также запускать модели SD 2.1.

Короче, кайф!

@ai_newz

2023-06-22 17:58:50

🔥Stable Diffusion SDXL 0.9

А вот и официальное подтверждение релиза новой модели, но пока без ссылки на код.

Модель SDXL 0.9 имеет 3.5 B параметров в базовой версии. И будет ещё ансамбль из двух моделей, суммарно на 6.6 B параметров.

Для текстового гайданса вместо одной CLIP модели используется конкатенация из двух: базовый клип от OpenAI)и OpenCLIP ViT-G/14. Это позволяет генерировать более точные детали на картинках.

На парных картинках — сравнение результатов SDXL beta и новой версии SDXL 0.9. Качество сильно возросло

Во время инференса нужна будет видеокарта от AMD с 16 GB VRAM, либо от NVIDIA с 8GB VRAM.

Ждём блог пост со всеми деталями и сам код (который по идее должен появиться сегодня).

https://stability.ai/blog/sdxl-09-stable-diffusion

@ai_newz

2023-06-22 17:35:03

Новая LDM модель от Stability AI

Встретился со своими бывшими коллегами по PhD — Робином (справа) и Адреасом (слева).

Парни являются основными авторами Stable Diffusion и сейчас работают в Stability AI.

Сегодня они зарелизили новую Latent Diffusion модель примерно на 3 млрд параметров.

Я так понимаю, это следующее поколение SDXL. И будет опубликован код!

#personal
@ai_newz

2023-06-22 01:15:05

Утекли подробности про GPT-4.

Говорят, что это смесь из 8 экспертов, каждый по 220 млрд параметров. То есть в сумме 1.760 триллиона параметров! Соумит Чинтала (один из создателей PyTorch) тоже подтвердил слух.

Эксперты в этом случае — это просто копии модели GPT, на 220B параметров, которые тренировались отдельно и скорее всего на различных данных.

Во время инференса у них там какие-то хитрые трюки для того, чтобы выбрать ответы каких экспертов выдавать юзеру.

@ai_newz

2023-06-21 20:49:14

CVPR день четвертый: доклады, постеры и демо 🤖

Я сегодня дежурю на стенде Meta AI, болтаю с посетителями, рассказываю про наши работы.

Тем временем коллеги из команды робототехники показывают демо с робопёсиком Спотом, которого научили навигироваться в неизвестном пространстве (то есть у него нет карты помещения) и выполнять различные команды. Например собрать мягкие игрушки в комнате и закинуть их в корзину, как показано на видео. Он сам планирует, находит предметы и переносит их. И самое крутое — это то, что он был обучен только на синтетических данных.

К пёсику прикрутили языковую модель, что позволяет командовать им на английском языке (про похожую интеграцию GPT в Спота от компании Levatas я писал раньше тут).

Некоторые подробности про то, как этого пёсика дрессировали есть в блогпосте.

Как же классно, если есть возможность посмотреть как натренированные тобой нейронки работают в физическом мире. Жаль, я не занимаюсь робототехникой.

#конфа #карьера
@ai_newz

2023-06-21 17:45:42

Qualcomm запилили квантизацию для Stable Diffusion и запихнули ее на телефон с процессором Snapdragon. Я поговорил с их ресерчерами.

Работает прилично, но не молниеносно – 13 сек на картинку (20 шагов DPM++).

Int8 квантизация для весов и int16 для активаций.

Все это зарелизили как часть своего AI Engine SDK. Говорят, что их код можно использовать и для квантизации под GPU.

У снэпа получилось быстрее, но у них и трюков больше, и телефон мощнее плюс юзают Apple CoreML.

#конфа
@ai_newz

2023-06-20 17:25:49

CVPR день третий: основная конференция, постеры и экспо

Сейчас готовлюсь к презентации постера, прошелся для вас по экспо со стендами компаний пока не набежала толпа.

Тут будут ходить тучи народа через 30 минут.

#конфа #personal
@ai_newz

2023-06-20 15:57:58

Сегодня в 10:30-12:30 по канадскому я буду презентовать наш постер Avatars Grow Legs

Узнаете как восстанавливать последовательность 3D поз человека в движении, зная только позицию головы и запястий (например во время игры в VR).

Постер #46, приходите поболтать если вы на CVPR. #конфа

❱❱ Подробный пост про статью.

@ai_newz

2023-06-20 08:08:47

Сегодня был ещё на офигенном воркшопе Visual Pre-Training for Robotics.

Великий исследователь в области визуального восприятия Джеймс Гибсон сказал знаменитую фразу: «Мы видим, чтобы двигаться, и мы двигаемся, чтобы видеть». Но можем ли мы научиться видеть, прежде чем научимся двигаться? И как далеко мы сможем продвинуться, если сначала научимся видеть? — Так описывается этот воркшоп.

Было много классных докладов про применения компьютерного зрения и претренировки моделей на визуальных задачах перед тем как использовать их на задачах робототехники, например для планирования и управления роботами.

Особенно понравился доклад Сергея Левина про то, как они делают претрейн модели с offline RL на видеоданных, собранных с разных роботов (от машинок до квадрокоптера), а затем файнтюнят с помощью online policy learning. В итоге модель обобщается на нового робота и новое окружение всего за 20 мин. Это впечатляюще быстро!

Подробности в статье FastRLAP.

Постараюсь достать запись докладов для вас.

#конфа
@ai_newz

2023-06-19 22:24:14

CVPR День второй: воркшопы и туториалы

Словили Эндрю Ына в коридоре. Он несколько часов со всеми фоткался и отвечал на вопросы. Кажется, благодаря своим курсам по ML/DL, он стал даже более известным чем Хинтон, ЛеКун или Бенжио.

Сегодня моя команда огранизовывала воркшоп Efficient Deep Learning for Computer Vision. Вот пара понравившихся статей оттуда:
— FastComposer. Метод для генерации людей по заданному текстовому промпту и референсным фоткам. Не требует дорогого файнтюнинга, как например Dreambooth и может генерить сразу несколько персон на одном фото.
— DIME-FM: Distilling Multimodal and Efficient Foundation Models. Дистилляция фундаментальных Visual-Language моделей, которая требует меньше данных и в 10 раз меньше ресурсов чем оригинальные модели (например, дистиллировали CLIP).

Ещё заглянул на воркшоп про Egocentric Vision. Послушал доклад от Kristen Grauman: в недавней работе про Ego-exo video alignment они учили энкодер мэтчить кадры между видео от первого лица и видео с внешних камер.

#personal #конфа
@ai_newz

2023-06-19 15:11:23

А вот несколько слайдов с доклада "Efficient Text-to-Image Generation", где Снэп рассказывал про свою работу по ускорению Stable Diffusion.

Плюс демка, где они запускали генерации на телефоне.

Модель уменьшили, ускорили, дистиллировали и сконвертировали в Apple CoreML. Во время инференса использовали 8 шагов с DDIM семплером. Скорость генерации 1.9—2.0 сек / картинка на iPhone 14.

Представьте только. На GPU 50 шагов DDIM оригинальной Stable Diffusion в разрешении 512×512 работает примерно 1.7 сек. А тут сделали на мобиле почти за такое же время и без потери в качестве!

Сайт проекта SnapFusion

#конфа
@ai_newz

2023-06-18 17:43:53

CVPR День первый: воркшопы и туториалы

Держу вас в курсе. Начался первый день конфы.

Я уже посетил Efficient Neutral Network воркшоп от Снепа. Послушал про эффективные архитектуры трансформеров для мобилок и про SnapFusion — ускоренную Stable Diffusion для мобил. Ребята достигли скорости 1.9 сек 🔥 за картинку на iPhone 14.

Сейчас зашёл на туториал по диффузионным моделям. Это по сути развитие туториала с CVPR 2022, о котором я много раз писал. Очень классная штука, советую. Надеюсь, они выложат записи на ютуб.

#конфа
@ai_newz

2023-06-18 04:00:07

Пока я летел до Ванкувера, слушал подкаст с Yoshua Bengio. Это канадский профессор, ещё один отец-основатель Глубокого Обучения, помимо Яна ЛеКуна и Джефа Хинтона.

Иошуа поговорил про большие языковые модели и высокоуровневое мышление. Очень интересно было послушать про ботлнек сознания человека — мы можем активно держать в уме только небольшое количество переменных, что концептуально сильно отличается от того как сейчас работают Deep Learning модели. С одной стороны, это ограничивает мощность человеческого мышления. С другой стороны это очень полезный регуляризатор, который, возможно, и позволил человеческому мозгу так быстро развиться в процессе эволюции и "заставил" человека учиться оперировать высокоуровневыми концептами.

Иошуа рассуждает о том, как было бы круто добавить такой индуктивный байес в обучение нейросетей и подводит к тому, что текущие авторегрессионные модели (как, например GPT-4) — это не совсем то, что может обрести интеллект равный человеческому. Он говорит, что не масштабированием единым мы достигнем AGI, и что нам предстоит ещё много чего концептуально улучшить в текущий моделях.

Ещё он много раз ссылается на свои недавние работы, где он со студентами пытается развивать новый тип моделей — Generative Flow Networks (GFlowNets). Я о них впервые услышал только в том подкасте, думаю стоит разобраться, что за они.

Уровень сложности подкаста — выше среднего. Но все равно очень рекомендую к прослушиванию.

Spotify | YouTube

@ai_newz

2023-06-18 02:27:58

Нетворкинг на CVPR 2023

Друзья, у нас тут намечается критическая масса в Ванкувере. Поэтому я создал чатик для организации встреч. Добавляйтесь, если вы тоже тут.

https://t.me/+mjlZoGcsH0dkNGMy

@ai_newz

2023-06-17 10:46:29

CVPR 2023

Друзья, прямо сейчас я загружаюсь в самолёт и лечу на крупнейшую конференцию в мире — CVPR 2023 (Conference on Computer Vision and Pattern Recognition). Длится она целую неделю и ожидается порядка 10,000 участников. А в первый раз ее провели в1983 г.

На конференции одна из главных для меня вещей — это общение и знакомства. Для этого компании каждый день организуют свои тусовки. Ну, и конечно я буду посещать избранные доклады и постерные сессии, чтобы поговорить с авторами статей. Кроме того, я буду презентовать и свою статью Avatars Grow Legs!

Сделать канадскую визу для меня как и для многих других было отдельным приключением, и только вчера я смог забрать паспорт с заветной наклейкой.

А тех из вас, кто не попал на конфу, я постараюсь взять с собой виртуально и буду показывать самые интересные моменты с места событий.

Расскажите, чтобы бы вы больше всего хотели увидеть на конференции, и о чем мне рассказать. Напишите в комментах.

Если хотите пересечься в Ванкувере — тоже пишите.

@ai_newz

2023-06-16 15:16:22

Ох, свершилось. Кто-то наконец-то сделал виртуальную примерочную. И не кто-то, а Google.

Над этой проблемой бились долго, и много стартапов полегло. А тут взяли диффузию, на вход – фото человека, вместо текстового промпта – фото целевой одежды, джынь-брынь и готово! На выходе получаем человека, переодетого в заданную одежду.

Попробовать можно прямо в Google Shopping

Кстати, примерно 2.5 года назад гугл выпустил похожий продукт — виртуальную примерку помад.

А вот ещё подборка постов, где я писал про попытки сделать виртуальную примерку а помощью ГАНов (это технология для генерации картинок, которая была актуальна до прихода диффузионок). Можете проследить, как сильно результаты улучшились всего за 2 года:
https://t.me/ai_newz/60
https://t.me/ai_newz/694
https://t.me/ai_newz/733
https://t.me/ai_newz/914

Сайт проекта (CVPR 2023)
Блогпост

@ai_newz

2023-06-16 09:39:26

Mistral AI (ч.2)

Для обучения LLM, нужно очень много вычислительных мощностей, которые будут обходиться компании в десятки миллионов $ в год. Кроме того, парни хотят собрать команду "мирового класса" для создания “самых лучших опен-соурсных моделей”, а зарплаты AI спецов такого уровня могут доходить до миллиона долларов. Поэтому для Mistra AI было важно быстро поднять такую большую сумму в €105 миллионов. Это позволит им начать работу над своей задумкой без промедления.

Да, это стоило им 44% компании, что довольно много для seed раунда. Но, во первых, я думаю Франция будет всячески топить за этот национальный стартап и помогать ему, ведь им важно иметь именно домашний французский AI. Во-вторых, я не исключаю варианта, что компания будет куплена через год два более крупным игроком, и быстрое раздувание оценки оправдается ранним экзитом для фаундеров. Для сравнения, в январе 2015 Google купил DeepMind за $400М (поразительно похожая история на сегодняшнюю). Однако, мне кажется, Mistral AI уже так не продешевит.

На скринах - Google Scholar профили фаундеров.

Читать Ч.1.

@ai_newz #моемнение

2023-06-16 09:18:44

Французский LLM стартап, который поднял €105 млн через 4 недели после основания (ч.1)

В апреле я отправился из Цюриха в Париж, чтобы пересечься с коллегами из Meta GenAI, работающими над языковыми моделями. В нашем офисе я встретился c Гийомом Лампле (Guillaume Lample). Мы обсуждали LLaMa, ее дальнейшее развитие, поговорили про оптимизацию больших языковы моделей и трюки, которые можно применять для их ускорения во время инференса. В конце нашей встречи Гийом сказал, что он долго не задержится в Meta и через месяц уходит, чтобы создать свой стратап.

Через месяц после нашей встречи Гийом вместе с двумя друзьями основал в Париже стартап Mistral AI. Они намереваются строить большие и по настоящему открытые языковые модели, и возможно подвинуть OpenAI.

Еще через месяц, Mistral AI подняла seed раунд инвестиций на €105 млн и теперь оценивается в €240 млн. Представьте, компания, существующая всего месяц, не имеющая никакого продукта, и в которой всего 3 сотрудника уже оценивается в €240 млн! Давайте попробуем разобраться, почему так дорого, и почему фаундеры решили отдать целых 44% компании на первом же раунде инвестиций.

Итак, у компании три фаундера:
– CEO: Arthur Mensch. PhD в INRIA, 2 года PostDoc в École normale supérieure в Париже. Затем 2.5 года как Research Scientist в DeepMind, где кроме всего прочего внес вклад в известные модели Flamingo и Chinchilla. Имеет массивную экспертизу в языковых моделях.
– CTO: Timothée Lacroix. Работал Software Engineer в исследовательском отделе Facebook AI Research, один из контрибьютеров LLaMa. Самый инженеристый человек в команде Mistral AI, поэтому и CTO.
– Chief Research Officer (CRO): Guillaume Lample. Сделал PhD в Facebook AI Research и получил full-time позицию как Research Scientist в FAIR, а затем в GenAI, где и создал LLaMa. С Гийомом я пересекался еще в 2019, во время моей стажировки в FAIR, когда мы оба писали PhD. Уже тогда он показался мне невероятно продуктивным исследователем, у которого к защите диссертации было ~3000 цитирований. Основной его фокус это NLP и языковые модели, чем он и занимался, начиная с PhD и до основания стартапа. Самый маститый чел в плане науки и инноваций из трех фаундеров.

Как вы видите, команда получилась звездная, правда без бизнес экспертизы. Но я верю, что в ближайший год они нас удивят. Инвест фонд Lightspeed, который в них вложился, говорит так: "Это очень талантливая команда. Мы думаем, что в мире сейчас всего 70-100 человек с такой глубокой экспертизой в языковых моделях и их оптимизаций."

В отличие от OpenAI, где название не соответствует реальности, Mistral AI говорят “Open source is a core part of our DNA", то есть все свои разработки, включая данные и веса моделей, они планируют выкладывать в публичный доступ, что делает их ближе к Stability AI. Также в интервью TechCrunch они рассказали, что планируют строить свои модели только на публичных датасетах, чтобы избежать судебных исков (тут отсылка к Stability AI, у которых сейчас много проблем из-за данных). Пользователи тоже смогут вносить вклад, добавляя свои датасеты (думаю, примерно так как это сделано в Open Assistant).

Интересно что стартап не планирует выпускать продукты для конечных пользователей (вроде ChatGPT), вместо этого компания будет фокусироваться на enterprise клиентах. Я думаю, при их отрытой модели, это имеет смысл, ведь опен-соурс сообщество само позаботится о продуктах для обычных людей, как например это произошло со Stable Diffusion.

Продолжение в следующем посте.

@ai_newz #моемнение

2023-06-16 07:00:23

Курс «Английский для продакт-менеджеров» Яндекс Практикума спроектирован таким образом, чтобы вы отрабатывали разговорные навыки на рабочих задачах:

В работе продакта английский язык играет ключевую роль: он помогает изучать много профильных зарубежных медиа, читать блоги и каналы иностранных коллег и расти в должности.

👥 Проводили собеседования и учились вести переговоры
🧑‍🏫 Общались на этапе исследования и реализации JTBD
📈 Понимали, как питчить стратегию и видение продукта иностранным коллегам.

Программа подойдет тем, кто задумывается о карьерном треке или работает в международной команде. Занятия проходят с личным преподавателем и с обязательной разговорной практикой у иностранных IT-специалистов.

Запишитесь на бесплатную консультацию — кураторы ответят на вопросы о курсе и определят ваш уровень английского.

#промо

2023-06-15 09:21:16

Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation

Моушн-дизайнерам на заметку!

Все, кто пытался стилизовать видео по текстовому запросу с помощью SD + ControlNet знают, что результат такой генерации начинает прыгать как собака, потому что каждый кадр обрабатывается независимо.

В этой статье эту проблемку частично решают. Решение не научное, а скорее инженерное и не требует перетренировки сеток. Предлагают стилизовать ключевые кадры, причем для достижения консистентности по стилю, пробрасывают cross-attention между ключевыми кадрами. Как я понял, сначала стилизуют один ключевой кадр, а потом используют его как контекст во время стилизации всех других.

Затем авторы пропагируют информацию от ключевых кадров к тем, что между ними. Тут для консистентности формы, текстур и цвета используются трюки в latent пространстве LDM: AdaIN для цвета, ворпинг кадров друг на друга (используя optical flow) для формы.

Подробности в статье.
Результаты на сайте проекта просто🔥

@ai_newz

2023-06-15 08:14:45

Кстати, на днях OpenAI обновили модели и публичный API.

Появилась модель gpt-3.5-turbo-16k с контекстом на 16к токенов.
Для сравнения, из всех моделей OpenAI самый большой размер контекста в 32k токенов есть у версии GPT-4, которой пока нет в публичном доступе.

Цена за токен у gpt-3.5-turbo упала на 25%. А цена за использование модели text-embedding-ada-002, вычисляющей эмбеддинги для текста упала на 75%. Забавный факт: раньше можно было посчитать эмбеддинги для всего текста в интернете примерно за $50 мл, сейчас же это обойдется всего в $12.5 млн

Эмбеддинги можно использовать для поиска релевантых параграфов в документах и кормить в ChatGPT как дополнительный контекст. Напимер, если вы хотите поспрашивать чат-гпт по PDF доке, вы первым делом должны посчитать эмбеддинги для текста этой PDF, а затем для каждого запроса искать наиболее релеватный кусок текста и добавлять его в контекст ChatGPT. По сути эмбеддинг - это сжатое представление текста в векторизованном виде, по которому легко искать.

@ai_newz

2023-06-14 10:40:31

А вот Лиза Су показывает риал-тайм демку инференса модельки Falcon 40B на MI300X.

Более того, они договорились с HuggingFace, что те возьмутся за оптимизацию многих моделей с HF хаба под видеокарты AMD 🔥

@ai_newz

2023-06-14 10:34:10

Вот это новость от AMD! Как долго я этого ждал.

AMD наконец вступила в Deep Learning игру и показывает серьезную заявку пошатнуть монополию NVIDIA на рынке AI чипов.

Сегодня они представили новую видеокарту для обучения и инференса нейронных сетей — AMD MI300X.

Эта крошка вполне может тягаться с Nvidia H100.

Вот её характеристики:
— 192 Gb VRAM на одном чипе, (против 80Gb у H100, NVL версия не в счёт)
— 5.2Tb пропускная способность памяти (против 3.35 y H100)
— Бенчмарков по скорости пока нет, но одна Mi300X легко тянет 40B языковую модель Falcon в риалтайме (см на видео). Это первая видеокарта, которая вмещает модель такого размера полность в своей памяти.

Ещё (это очень важно) AMD договорились с Pytorch Foundation о том, что их софтовый стэк ROCm и все обновления будет поддерживаться и сразу запиливаться в Pytorch 2.0. То есть теперь гонять сети на картах AMD станет также легко как и на гпу от Nvidia! Это чудесные новости!

@ai_newz

2023-06-13 15:56:53

Вы все также уверены, что нейросети понимают мир и контекст того, что генерируют?

На картинке пример "аутпейнтинга" исторического фото (там, кстати, Эйнштейн в центре). Нейронка дорисовала контекст... с челом в кожанке.

Магии нет, есть статистика, стохастический градиентный спуск и баесы (необъективность) тренировочных датасетов.

@ai_newz

2023-06-12 20:31:26

"To the moon" 🌝

А вот как реагирует рынок на всю эту мышиную возню с AI.

Я как-то зассал, когда всё начало падать в 2022 и на некоторое время перестал покупать тех стоки, если не считать, что я по уши в Мете сижу. Сейчас буду потихоньку возобновлять регулярные покупки избранных компаний.

@ai_newz

2023-06-11 22:49:20

Эндрю Ын сегодня созвонился с Джефом Хинтоном, чтобы обсудить LLM и потенциальные риски.

А в твиттере в комментах к этому видео Ян ЛеКун уже набросил на вентилятор (обожаю его). Завтра расскажу поподробнее.

@ai_newz

2023-06-11 17:42:04

Ну вы серьезно?

Уже нельзя зайти на coinmarketcap посмотреть котировки без того, чтобы не увидеть инфоцыганщину про ChatGPT в топе новостей.

Кажется до криптанов тоже дошли технологии. Вот только люди, которые пишут такие статьи вообще ничего не понимают в том, как эти технологии работают. Текстовую модель просят предсказать цену эфира 🤦. Найдутся же еще простофили, которые будут следовать такому сигналу.

Я думал, что пик таких статей и обучающих видео прошёл в феврале, но нет.

Мы же тут как раз собрались, чтобы прокачать нейронную грамотность и моментально отфильтровывать такой инфомусор, проходя мимо.

@ai_newz

2023-06-10 21:27:31

Потестил я GEN-2, и готов дать непредвзятую оценку.

Технология интересная, но очевидно, еще в очень ранней стадии. Пиарщики из RunwayML проделали титанический труд, чтобы отобрать и смонтировать ролик из самых лучших примеров. Кажется, даже не побрезговали сделать постобработку и подкрутить цвета.

Модель откровенно забивает на текстовые запросы, особенно если там описано что-то нетипичное. Лица людей генерятся с артефактами, а получить внятное видео можно только с довольно простыми концептами.

Часто вместо видео получается статическая картинка без какого-либо движения. Нейронная сеть тут идет по пути наименьшего сопротивления.

Кажется, лучше всего GEN-2 генерит природу (огонь, воду и пр.). Ну и криповые кадры с собаками, и прочими зверями, которые я выставляю вам на обозрение. Признаюсь, что даже тут мне приходилось выбирать одно видео из трёх, на остальных было либо полное мясо, либо не то, что я просил, либо просто статические кадры.

@ai_newz

2023-06-09 20:51:34

Опа, RunwayML раздуплились и показывают годноту по генерации text-2-video с помощью своей новой сетки GEN-2.

Потыкать в демку можно тут. Генерируются клипы длительностью по 4 секунды.

Дают 250 секунд времени на видеокарте бесплатно, а дальше за доллары. Должно хватить минимум на 20 видосиков.

@ai_newz

2023-06-09 13:22:18

С помощью MusicGen можно генерировать более длинные треки, используя фиксированное окно в 30 секунд. Сдвигаем окно по 10 секунд вперед и сохраняем последние 20 секунд, которые были сгенерированы ранее, в качестве контекста.

Этот пример был сгенерирован моделью MusicGen 3.3B по запросу "lofi slow bpm electro chill with organic samples". Конечно есть небольшой шум, но нет ничего такого, что нельзябыло бы исправить ремастерингом.

Хочу теперь сгенерить себе пару часов электрухи для чтения статей и кодинга.

@ai_newz

2023-06-09 13:09:15

MusicGen - SOTA для генерации музыки по тексту

Братишки из Meta AI только что доставили лучшую нейронку для синтеза музыки по тексту либо по заданной мелодии.

Архитектура основана на авторегрессионном трансформере (только декодер). Вся генерации идет тупо через один трансформер, без всяких иерархических апсемплингов, как обычно это было в предыдущих работах.

Код вылили в составе не просто так, а в составе новой библиотеки Audiocraft, которая задумана для дальнейшего ресерча в генерации аудио. Есть модели разного размера: от 300M до 3.3B параметров. Для инференса локально потребуется 16GB VRAM, но можно и в колабе.

Музыканты, битмейкеры и диджеи - налетайте!

Код + веса
Сайт с примерами генеараций
Демо на HF
Колаб на поиграться

@ai_newz

2023-06-09 08:43:34

Tracking Everything Everywhere All at Once

Сейчас прямо идёт волна улучшений в ~~зрении~~ вижене. Давеча мой коллега Алекс Кириллов прокачал сегментацию до нереальных результатов. Теперь парни из Гугла и Беркли завезли чертовски качественный попиксельный трекинг объектов на видео.

Для человека задача трекинга и нахождения соответствия между пикселями движущегося объекта кажется довольно простой. Но вот до сих пор как-то не было стабильных алгоритмов, которые бы могли плотно трекать объекты длительное время.

Конечно, проблему трекинга ещё не до конца решили. Этот метод довольно медленно работает (далеко не реал-тайм), и все ещё страдает от очень быстрых и неригидных трансформаций объектов. Но несмотря на это, мы имеем серьезный скачок в качестве.

Код, ~~к сожалению, пока нет~~ уже появился.

Читать на Arxiv. Либо смотреть картинки на сайте проекта.

@ai_newz

2023-06-07 12:03:29

🦍 Gorilla: Large Language Model Connected with Massive APIs

Языковые модели иногда врут и голлюцинируют и по умолчанию имеют доступ только к срезу данных, на которых обучались. Чтобы хоть частично решить эти проблемы, решено было дать им доступ к интернету, чтобы они гуглили и научить их пользоваться сторонними инструментами (через плагины). Вот тут я писал про плагины к ChatGPT, о которых позаботилась OpenAI.

А как же домашние LLM?
И тут опенсоурс не отстаёт. В этой работе парни прикрутили более 1600 API к LLaMa-7B. И их затюненая LLaMa обошла по качеству API вызовов даже GPT-4 и Claude AI!

Е-е-е, оупен-сорс вперёд!

Основной фокус этой статьи — вызовы нейронок через API с платформ Torch Hub, HuggingFace и Tensorflow Hub. То есть ты пишешь "я хочу детектировать и трекать голубей на видео" и модель выдаст вам какие API запросы нужно сделать. И это можно выстраивать в умные пайплайны, где по желанию пользователя будут вызываться разные модели.

Попробуй Гориллу за 60 сек (колаб)
Код
Сайт проекта

@ai_newz

2023-06-06 17:15:02

ЛеКун быстро поел и ушел, так что я с ним не поболтал 🤷‍♂. Если честно, то было стрёмно к нему лично подкатывать, хз с чего разговор начинать.

Или надо было сказать "Привет, Ян. Ох, как здорово ты разъебываешь Юда в твиттере! Слежу за всеми твоими похождениями." ?)))

Жду ваши варианты подкатов к Яну в комментах.

2023-06-06 13:35:54

Заехал я сегодня в наш парижский офис. Сижу в столовой, обедаю, общаюсь с товарищем из команды Xformers, никого не трогаю.

Тут заходит Ян ЛеКун и садится за соседний стол 😳. Он как раз приехал в Париж на несколько дней. Обычно Ян находится в Нью-Йорке, и раньше я его видел только по видео связи во время презентации статей на ридинг клубах.

Надо подойти пообщаться за AI алармизм 🌚.

@ai_newz

2023-06-05 18:35:37

Vision Pro: Когда крутил ~~круглые тензоры~~ трансформеры на новом железе всю ночь

@ai_newz

2023-06-05 18:30:47

Пошла жара. Сейчас говорят про свой VR хедсет - Apple Vision Pro.

Крутой pass-through (это когда ты видишь реальный мир, и на него наложены виртуальные объекты)

Вот только, что за кабель торчит из очков сзади 😁. Так можно и спотыкнуться. В общем далеко не убежишь с ними.

Цена $3499. В следующем году появятся в продаже.

@ai_newz

2023-06-05 18:24:22

Идет трансляция WWDC 2023 Apple

Пока самое интересное для нас - это новое железо. А оно ого-го какое!

— Новый 15" MacBook Air дает прикурить любому ноуту на чипах от Intel. Плюс еще и нейронки будет гонять отлично. [Буду брать.]
— Apple Silicon теперь и на Mac Pro.
— Новый чип M2 Ultra - это просто зверь для ML. Дополняется объемом до 192 GB RAM, к которой есть доступ у Metal GPU. А это очень дохрена! Такой объём память позволяет тренить и гонять инференс больших трансоформеров, которые не влазят даже в самую большую GPU от NVIDIA. Тут и LLaMa 65B можно засунуть.

Трансформеры бррр, как говорится.

П.с. цена на Mac Pro начинается от $7k.

Текстовая трансляция ивента
Видео трансляция

@ai_newz

2023-06-05 09:35:51

Ничего особенного. Просто LLaMa.cpp на 7 млрд параметров работает со скоростью 40 токенов/сек на MacBook с чипом M2 Max.

Это стало возможным после недавного обновления репозитория от Герганова, где он полностью реализовал инференс моделей на Metal GPU (это специальный ускоритель на новых чипах Apple). Мы видим 0% CPU утилизации, и загрузку всех 38 Metal ядер. Поистине искусный инженер от народа!

От себя добавлю, что очень хочу увидеть будущее, где у каждого локально бегает своя персонализированная LLM-ка, помогающая в рутинных делах. Это называется модулярностью. Огромную модель тренируют централизовано, а далее каждый пользователь легко и быстро (мы к этому стремися) ее дошлифовывает на своих персональных данных и крутит только локально.

@ai_newz

2023-06-02 09:25:44

Вместо похода в спортзал, чтобы не отрываться от компьютера, берем Photoshop Beta и рисуем себе селфак из зала.

Норм тема. Just do it 😎.

@ai_newz

2023-06-01 19:04:51

Про обновления игр на Quest

А вот и запись трансляции Meta Quest Gaming Showcase 2023.Там показали новые игры, и их обновления, которые в скором времени выйдут на платформе Quest.

Как раз вы спрашивали про новые игры в комментариях к предыдущему посту.

@ai_newz

2023-06-01 16:06:54

Meta анонсировала Quest 3!

Дроп будет осенью, по цене $499 за штуку. Новый девайс будет мощнее и компактнее чем предыдущая модель.

В этой штуковине будет крутится пара моих нейронок тоже! Я успел кое-чего сделать перед своим переходом из Reality Labs, которая как раз занимается хедсетами, в Generative AI оргу.

@ai_newz

2023-06-01 07:44:02

Интервью с несуществующими гостями или AI для шоу-криэйторов

Парнишка сгенерил интервью, где Месси разговаривает с молодым собой и даёт себе наставления 😅.

И лица, и голоса, и текст — все синтетическое. Тут Midjorney, ChatGPT-4, сетка для анимации головы и text2speech [тык].

Довольно забавно вышло. Осталось только качество картинки довести до реализма. Кажется, это будущее развлекательных шоу, если только копирайтами и регуляциями не задавят все такие применения нейронок.

@ai_newz

2023-05-31 10:14:15

Вы уже наверное слышали, что на прошлой неделе Adobe выкатил в прод фичу Generative Fill.

Принес вам пару классных демо работы их генеративного инпейнтинга.

Под капотом, конечно, диффузионная модель. Качество генерации прям отлично 👌.

Но тут надо понимать две вещи. Во первых — это конские цены на подписку Adobe, которые покрывают Аренду видеокарт A100 в облаке для прогонки диффузионнок. Стоит ожидать и повышение цены либо лимиты на генерацию.

Во вторых, отличное качество не удивительно, если учесть тот факт что качественные данные для обучения у Адоби прут из всех щелей. Дело в том, что по пользовательскому соглашению весь арт, который вы создали в их продуктах может быть использован компанией для обучения моделей. А как мы знаем, чистые данные и их большой объем — это залог успеха для генеративных моделей.

@ai_newz

2023-05-30 13:41:03

▶️ Вышла запись видео-интервью, где я в гостях у @deep_school

О чем мы поговорили:
0:00 | Вступление
0:40 | Как Артём стал автором эйай ньюз
2:44 | О ведении канала и личном бренде на русском языке
10:45 | Куда писал Артём до эйай ньюз и как его вдохновил Яник
16:12 | Плюсы личного бренда на русском языке
17:30 | О работе Артёма в Meta
21:43 | Как устроена и работает ресерч группа в Meta
30:10 | Как разделены обязанности в команде
37:05 | Какие тренды в CV сегодня?
46:10 | Куда сейчас смотреть CV инженеру, чтобы оставаться актуальным?

Вопросы из зала:
50:55 | Нужна ли RnD команда компаниям, у которых продукты связаны с ML?
52:43 | Откуда каналы узнают об интересных статьях?
54:00 | Насколько важно ресерчеру знать низкоуровневые скиллы?
55:10 | Когда беспилотные авто выйдут на дороги и будут везде?

Посмотреть и послушать можно на Ютубе.

#personal #карьера
@ai_newz

2023-05-29 18:30:28

🔊SoundStorm: Efficient Parallel Audio Generation

Свежачок от Google! Кто-то еще сомневается, что AI через год не сможет позвонить по телефону и забронировать для вас столик в ресторане?

А в этой работе все даже круче. Нейронка умеет синтезировать даже диалоги с разными голосами. То есть сможет прочитать любой блогпост либо интервью для вас, как будто бы слушаете подкаст.

Что синтезировать можно задать текстом, а сам голос можно задать примером из нескольких секунд реальной записи.

✔️Архитектура не авторегрессионная (как в AudioLM), а генерит сразу кусками по 30 секунд, что более эффективно.
✔️Сеть тренировали на датасете из 100,000 часов диалогов.
✔️По скорости инференса уже довольно бодро, 30 секунд диалога генерируется за 2 сек на TPU-v4. И я уверен, что скоро будет еще быстрее.

Статья
Примеры
Неофициальный код от lucidrains

@ai_newz #audio

2023-05-27 18:41:13

NVIDIA — это, конечно, одна из моих самых любимых технологических компаний. И сейчас она производит основные мощности для всей этой ЭЙАЙ революции (гугловские TPU не в счёт). Но капитализация в почти $1 триллион— это просто нечто. С текущим хайпом компания оценивается в 222 своих годовых прибылей!

Насколько я понимаю, сейчас им довольно трудно быстро масштабировать свое производство, ведь они не владеют всей цепочкой от начала до конца. #моемнение

@ai_newz

2023-05-26 16:28:20

Google раскатил у себя автоматизацию Code Review с помощью LLM

А вот это уже реально полезная автоматизация. Все же не любят долгие код ревью с туда-сюда комментариями.

Однако ревью кода является ключевым этапом в процессе разработки ПО. В Google (да и у нас в Meta) ежегодно оставляются миллионы комментариев во время ревью коммитов, и обработка этих комментариев занимает много времени у авторов кода. Однако с помощью LLM можно автоматизировать этот процесс, генерируя правки к коду прямо в браузере на основе комментариев.

Google так и поступил, что помогло им сократить время, затрачиваемое на ревью кода. Языковая Модель (думаю на основе Palm-2) обучалась на типичных задачах по коду, типа рефакторинга, написания тестов, и комментариях ревьюверов, предсказывая необходимые изменения кода.

В будущем мы вообще перестанем код сами писать.🌚

Блог

@ai_newz

эйай ньюз страница 7. Показано 50 статей из 595