эйай ньюз - страница 4

2023-11-21 23:43:57

ChatGPT прилёг полежать. Сайт у меня из Швейцарии недоступен. Судя по всему, многие пользователи тоже не могут до него сейчас достучаться.

Проверил через perplexity.ai — модель GPT-4 все ещё бегает. То есть через API она пока работает.

Эх, как быстро у них все стало рушиться. Я, честно сказать, не ожидал от них такого крутого пике.

@ai_newz

2023-11-21 21:06:38

Вот еще примеры генерации Stable Video Diffusion.

В анонсе есть ссылка на вейтлист, если хотите получить доступ к веб-версии модели.

@ai_newz

2023-11-21 20:39:35

🔥Stable Video Diffusion

Друзья из Stability.AI наконец-то зарелизили image-to-video модель! Работает на базе весов SD v2.1.

Есть две версии
- SDV, генерит 14 фреймов 576x1024
- SDV-XT, которая зафайнтюнена с SDV, чтобы генерить 25 кадров.

Фрейм рейт можно менять во время инференас от 3 fps до 30 fps, то есть можно получить видео длиной от 1 до 8 сек. Достигается это за счет дополнительного кондишенинга на фрейм-рейт, также как в SDXL был добавлен кондишенинг на разрешение выходной картинки.

По представленным бенчмаркам, SDV обходит Gen-2 и Pika.

Количество фреймов, генерируемых за раз, конечно, меньше чем у EMU-Video, но зато полный опен-соурс, и веса тоже уже доступны!

Статья с деталями.

@ai_newz

2023-11-21 20:15:28

Драма в OpenAI продолжается. Собрал для вас корото факты, о чем известно на сегодня:

1️⃣ Три члена совета директоров ушли в отставку еще в начале года, но компания не торопилась искать им замену.

2️⃣ Один из нынешних членов совета, Адам Д’Анджело, запустил собственную AI-платформу Poe, которая конкурирует с продуктами OpenAI.

3️⃣ Еще двое членов совета, Таша МакКоли и Хелен Тонер, также сидят в борде органиазции Center for the Governance of AI, финансируемой благотворительной организацией Open Philanthropy, которая в свою очередь частично финансировала Anthropic. Тут можно усмотреть некий конфликт интересов.

4️⃣ Таким образом, совет директоров OpenAI выглядит довольно странно и хаотично сам по себе. А в пятницу они решили уволить основателя компании Сэма Альтмана.

5️⃣ Главный ресерчер Илья Суцкевер, похоже, пожалел о своем участии в увольнении Сэма Альтмана. Он быстренько переобулся и подписал письмо сотрудников с требованием отставки совета директоров.

6️⃣ Более 700 сотрудников подписали письмо с угрозой уйти в новое подразделение Microsoft под руководством Альтмана, если совет директоров не уйдет в отставку.

7️⃣ Временный CEO Эмметт Шир пообещал разобраться в ситуации, но сотрудники ему, похоже, не доверяют. Эммет сказал, что тоже уйдет из совета директоров, если ему не расскажут за что уволили Альтмана.

Согласно The Information, Шир не был первым кандидатом на пост нового CEO. До него эту должность отклонили основатель Scale AI Александр Ванг и бывший гендиректор GitHub Нат Фридман. Интересно почему?

8️⃣ Совет директоров даже предложил конкуренту OpenAI - компании Anthropic - объединиться и назначить их CEO новым главой OpenAI. Но получил отказ. На что они вообще рассчитывали?

9️⃣ Сэм Альтман все еще в Майкрософт не ушел, а только грозился. Но Microsoft в теории все еще может переманить к себе бОльшую часть команды OpenAI вместе с Альтманом. Судя по всему, сила культа Сэма среди сотрудников довольна большая.

В общем, совет директоров OpenAI полностью потерял доверие. Скоро от компании может остаться только вывеска. Будем следить за развитием событий в этом захватывающем сериале 🍿

@ai_newz

2023-11-18 13:23:34

Ситуация с Альтманом, конечно, интересная. Но я не спал до 6 утра не поэтому. А потому что сегодня утром был дедлайн подачи статей на CVPR 2024.

В этот раз я немного расслабился и не сидел до 9 утра, как в былые времена. Студент хорошо поработал, и команда на этом проекте была довольно большая, поэтому статья была уже на 99% готова заранее, и можно было со спокойной совестью идти отсыпаться.

Вообще работа Research Scientist-а — это такие дедлайны с написанием статей минимум два раза в год.

Кроме экспериментов, мне реально нравится именно процесс написания текста и выкристализовывания самой идеи статьи, оттачивая фразы и слова. Начинаешь с набора малосвязанных предложений и после каждого прохода по тексту видишь, как статья постепенно приобретает форму. А затем читаешь и дивишься, как за несколько дней с пустого листа вырастает такая красота. Главное не забыть вставить картинку на первую страницу — она должна привлекать внимание.

Итого, дедлайн для меня служит поводом поставит финальую точку если не во всём проекте, то хотя в одной из его глав.

Теперь можно опять следить за Альтманом 😅.

@ai_newz

2023-11-17 21:36:23

Никто:

Сэм Альтман:

@ai_newz

2023-11-16 19:15:28

Воторой релиз от Meta GenAI - Emu Edit, про редактирование изображений на стероидах с помощью диффузии.

Моделька тоже основана на базовой модели Emu.

Более детально опишу позже, сейчас нужно заняться экспериментами, чтобы видюхи ночь не прозябали.

Пока просто прикрепляю тизер с результатами редактирования по текстовому промпту.

@ai_newz

2023-11-16 18:41:27

🔥EMU VIDEO:
Factorizing Text-to-Video Generation by Explicit Image Conditioning

Сегодня сразу два больших релиза от моих коллег из Meta GenAI! Один из них — опубликовали модель EMU-Video.

Новая модель строится на базе Text-2-image модели Emu, и теперь может генерить 4-секундные видео 512x512 в 16 fps.

Архитектура, грубо: мы берем pre-trained 2.7B Emu для генерации text-2-image, замораживаем Unet и добавляем в него дополнительные аттеншен слои, которые работают вдоль врменной оси. И тренируем только доп слои, на генерацию видео по тексту.

На вход даём либо картинку + текст, либо только текст (в этом случае картинку генерим с помощью Emu). На выходе — 65 фрейма 512x512.

Если погрузиться в детали, то сначала генерится 16 фреймов, а затем ещё одна модель с такой же архитектурой интерполирует видео до 65 фреймов.

Это теперь SOTA в text-2-video:
✔️ Emu-Video vs Gen-2: победа Emu-Video в 78.5% случаев
✔️Emu-Video vs Pika - победа в 98.5% случаев по оценке кожаных разметчиков.

Сайт проекта
Демо-результаты

@ai_newz

2023-11-16 15:16:50

🔥Microsoft анонсировал два новых кастомных AI чипа - Maia и Cobalt:

1️⃣Maia - это AI accelerator, разработанный специально для обучения и инференсаLLM, таких как GPT-3/4. Он был спроектирован совместно с OpenAI (к слову о нехватки серверов из предыдущего поста).

2️⃣ Cobalt - это CPU на базе ARM для общих облачных вычислительных, ну, и для того чтобы гонять LLM CPU все равно нужен. Он болеее экономичный по сравнению с традиционными x86 CPU.

3️⃣ Подробностей очень мало, но известно, что оба чипа изготавливаются по 5-нм техпроцессу TSMC [не самый свежий процесс, H100, например, использует 4-нм].

4️⃣ Новые чипы начнут развертывать в датацентрах Azure в 2024 году. Продавать их не планиуют. По той же схема как и с гугловскими TPU - можно будет только арендовать.

5️⃣В Maia примерно на 30% меньше транзисторов (105 млрд), по сравнению с GPU AMD MI300X (153 млрд).

6️⃣ Интересно, что Microsoft использует мощности TSMC, несмотря на дефицит и полную загрузку мощностей фабрик TSMC со стороны других крупных разработчиков чипов, таких как Apple, AMD, Intel и Nvidia. Это только подчеркивает уникальное положение TSMС на рынке чипов и, вероятно, его основное узкое место.

Количество конкуренции у NVIDIA возрастает с каждым месяцем. Все хотят контролировать технологию, начиная от собственных чипов и заканчивая своей собственной нейросетью. What a time to be alive

🤣

П.с. на картинках - живые серверные рэки с чипами Maia.

@ai_newz

2023-11-15 11:58:28

Кажется, что OpenAI работает в дикий минус. Впрочем, это не такая уж и новость. Подумайте, учитывая размер полученных инвестиций (более $10 млрд с начала года), у них не хватает вычислительных ресурсов / денег на GPU, да так, что Альтман твитнул, что они временно приостанавливают рост платящих пользователей.

У меня по этому поводу несколько мыслей:
1️⃣либо деньги от каждого премиму юзера - это копейки, которые не делают погоды в маштабе трат на сервера;
2️⃣ либо Альтман подогревает хайп перед следующим раундом, искуственно создавая нехватку ресурсов и ажиотаж вокруг подписок, чтобы зарейзить побольше. Звучит очень удобно;
3️⃣ новых ГПУ-шек NVIDIA может произвести не так много за короткий срок, а для бодрого инференса GPT-4 их нужно дохера. В итоге имеем то, что имеем - космические цены на свежие GPU (это резонирует с пунктом 1), и одновременно их нехватка для прожорливых AI фирм. А тут еще и главный партнер, Microsoft, не делится гпу - раскатал GPT-3/4 для всех бесплатно, что тоже добавляет к нехватке ресурсов.

@ai_newz

2023-11-13 12:17:51

Тут каталонский стартапчик показывает демку, на которой они гоняют SDXL в риал-тайме на GPU.

Ну как SDXL, у них тут таренирована LoRA модель с помощью метода Latent Consistency дистилляции. Модель после этого бегает за 1-2 шага, но не без потери в качестве.

Как инструмент для интерактивного создания наброска — просто отлично. А затем можно уже поверх прогнать и полную модель для добавления деталей и реализма.

@ai_newz

2023-11-12 21:24:17

Опять настало то время года, когда я ищу интернов в нашу Generative AI команду в Цюрихском офисе Meta.

Что нужно будет делать: работать над next-gen диффузионками для картинок и видео. Вот тут примеры того, что мы недавно зарелизили в прод: модель Emu, Generative Stickers, на подходе редактирование фото в IG).

Если у вас есть 2-3 публикации уровня CVPR/ICLR/NeurIPS, и вы сейчас учитесь в аспирантуре, то срочно пишите мне в личку или на мыло.

Стажировка проходит 6 месяцев физически в Цюрихе, начиная с весны либо лета 2024. Платить будут > 10к CHF в месяц и бонусом предоставляют апартаменты на все время стажировки.

От вас ожидается всего одна вещь — суметь написать и засабмитить статейку на CVPR 2025 🐶.

По всем вопросам пишите в комментариях.

@ai_newz

2023-11-12 16:20:41

Амазончик начал тренировать гигантскую LLM на 2 триллиона параметров под кодовым названием "Olympus", чтобы конкурировать с OpenAI. Такой размер — это по слухам больше чем GPT-4. Очевидно, что не хотят сидеть на апихах.

Планируют потом пустить эту модель в Алексу и юзать как конкурентное преимущество у себя на AWS. Это очень даже логично.

Плюс, у Амазона сейчас рекламная выручка на хорошем подъеме — найдут как применять модель и там.

Ну что, успехов им. Теперь будем квоту на гпу на AWS для пет-проектов месяцами ждать — все пойдет на обучение монстра.

@ai_newz

2023-11-11 17:46:55

Снял это видео недалеко от офиса чуть больше месяца назад.

Оказывается, у нас по соседству завелся стартап, который разрабатывает этого прикольного двухколесного робота-охранника. При мне парни управляли им с джойстика, но есть у него и автономный режим - где он патрулирует по заданному маршруту, смотрит все ли в порядке, стримит и одновременно анализирует видео.

Он как робот-пылесос, только умеет ходить по любой поверхности (за счет RL обучения), и радиус действия не ограничивается вашей квартирой. На него можно навешать и тепловизоры, и камеры ночного видения, и вообще что-угодно, кроме огнестрельного оружия, разумеется. Ну, вы поняли.

Двухколесная база именно для городских условий, конечно, гораздо более проста, устойчива и мобильна, чем робот на четырех лапах, как например пёсик Спот от Boston Dynamics.

@ai_newz

2023-11-08 22:16:13

No comments

@ai_newz

2023-11-07 21:14:28

🔥Consistency Decoder

Среди недавних релизов OpenAI больше всего в мое сердечко запал их новый декодер для LDM - Consistency Decoder.

Напомню, что Stable Diffusion генерирует изображения в Latent пространстве, которое затем декодируется VQ-VAE декодером (на картинке выше, кажется, его назвали GAN Decoder). Такой декодер довольно легковесен, но он не может точно восстанавливать мелки детали типа лиц людей на заднем плане. Поэтому парни из OpenAI решили натренировать еще одну диффузию вместо VAE декодера.

Но диффузия работает медленно и требует много шагов во время инференса... Тут на помощь пришла дистилляция из диффузии в Consistency Model, которая может неплохо работать за 1-2 шага, ~~если руки не кривые~~.

В статье про Dalle-3 было вскользь упомянуто, что в новой архитектуре для перевода скрытого кода в RGB они как раз используют такой Consistency Decoder, который работает за 2 шага.

Consistency Decoder - это тоже Unet, и довольно большой, 620 M параметров (для сравнения SD 1.5 ~900M параметров). Но это все равно допустимая жертва ради улучшенного качества восстановления лиц, мелких деталей и регулярных линий.

Жаль, только, что кода тренировки нет, и остается только заниматься реверс-инженирингом и экспериментировать, чтобы понять как они натренировали этот декодер. Выложили только инференс и веса декодера, который совместим с базовым Stable Diffusion 1.x - 2x и может использоваться как drop-in replacement вместо стандартного декодера.

➡️ Код и веса

@ai_newz

2023-11-07 13:05:34

Я знаю, у вас мало времени, поэтому TLDR по OpenAI DevDay:

1️⃣ Релизнули ChatGPT-4-Turbo - ускоренную и более дешевую версию.
• Расширили контекст до 128к токенов (это ~300 страниц текста)
• Увеличили лимиты генерации токенов/сек.
• Каждый токен в промпте стал в 3x раза дешевле, а сгенерированные токены - в 2x раза дешевле по сравнению с ChatGPT-4
• База знаний ChatGPT-4-Turbo рсширилась до апреля 2023 (у ChatGPT-4 было до сентября 2021).
• Очень интересно уведеть бенчмарки, насколько пожертвовали качеством генерации у Turbo версии ради ускорения.

2️⃣ Запустили Assistants API - набор no-code инструментов для создания кастомных ботов-ассистентов на основе ChatGPT.
• Ассистенты могут писать и выполнять код, принимать на вход документы и PDF. Возможность грузить картинки добавят позже.
• Это убило много стартапов, которые строили свои продукты вокруг промптинга и предоставления доступа к кастомным агентам.

3️⃣Новые модальности (Vision & Audio):
• Dalle-3 теперь доступна через API.
• Релизнули модель для синтеза речи (TTS). Доступна через API.
• Релиз Whisper-3 - более мощный speech-2-text. Уже в опен-соурсе на GitHub. А также через API.
• ChatGPT теперь может принимать картинки через API.

4️⃣ Анонсировали "GPTs" - возможность создания кастомных версий ChagGPT для разных целей и маркетплейс для них.
• Девелоперы могут продавать свои кастомизированные GPT на централизированном маркетплейсе и получать процентик от ревенью. Типа App Store для ботов.

5️⃣ Copyright Shield - защита от нарушения автораских прав для пользователей Enterprise плана и API. То есть если на пользователя подали в суд за нарешение авторских прав в результате генерации моделями OpenAI, то OpenAI впрягается за пользователя и оплавчивает все судебные издержки.

Видео-выжимка выступлений с основными моментами: тык (19 минут).

@ai_newz

2023-11-06 17:44:39

OpenAI DevDay - ждем новых анонсов по моделям и API

Через 16 минут OpenAI будет проводить свою первую конференцию для девелоперов. Ходит много слухов о том, что будут представлять. Возможно появится GPT4-TURBO - более быстрая и дешевая версия GPT4. А так же ожидается куча новостей по поводу плагинов, интеграции ChatGPT с разными приложениями и маркетплейс чатботов на базе ChatGPT.

Некоторые даже сравнивают эту конфу с тем моментом, когда Джобс анонсировал первый Iphone. Я, честно, не верю, что это будет что-то настолько же большое, но посмотреть интересно.

Смотрим стрим на YouTube

@ai_newz

2023-11-06 12:10:52

А если виртуальная клавиатура из предыдущего поста вам не нравится, можно подсоединить и настоящую.

Кстати, довольно классное применение AR — чел работает в своем электрокаре, пока он стоит на зарядке. Не будешь же три монитора с собой таскать.

Искушённые пользователи скажут, что тут основной затык в разрешении виртуального экрана. Там все ещё не ретина, конечно, но 2064 x 2208 на каждый глаз в Quest 3 — это уже внушительно. Да, и прогресс не стоит на месте.

Хочу наконец сам попробовать так поработать, протестировать сетап.

@ai_newz

2023-11-05 15:14:51

STAR: Smartphone-analogous Typing in Augmented Reality

Исследования альтернативных методов ввода - это одно из важнейших направлений Human-Machine Interaction. Вот тут интерн из Меты придумал новый метод набора текста в AR очках и собрал демку.

Ты просто формируешь "позу согнутых кистей" рук, как будто бы держишь смартфон, а через AR-очки на твоих руках появляется мини-клавиатура QWERTY! Печатаешь обоими большими пальцами, а тактильный отклик во время набора текста достигается за счет прикосновениями к собственной коже. И если решаешь переключиться на что-то ещё, просто меняешь позу кистей, и клавиатура исчезает.

Во время тестов, выяснили что скорость набора такми методом - 22 слова/мин, что всего в 2 раза медленнее чем на реальном смартфоне.

Норм тема на будущее, когда AR-очки пойдут в массы. Особенно если ты в где-то в автобусе и не хочешь кричать на публику "СИРЕ! НАПЕШИ ВОЛОДЬКЕ, ЧТО Я ОПАЗДЫВАЮ!".

@ai_newz

2023-11-05 13:39:10

Не зря же мы тут собрались. Вот как раз и в Collins Dictionary объявили "AI" словом 2023 года.

На хайпике, хайпуем, ребята! Эйай - это новый социальный лифт. Это больше не айти, как было в педыдущие 15 лет, ~~и не закладки,~~ теперь все хотят заниматься эйай.

@ai_newz

2023-11-02 14:31:54

Distill-Whisper от 🤗 — в x6 раз быстрее оригинала!

Моделька Whisper от OpenAI для транскрипции аудио в текст (я писал о ней тут и тут) бодро разлетелась по множеству проектов. Вот только самая крупная ее версия, Large-v2, имеет 1.5 млрд параметров и не является самой быстрой.

Но для деплоя в прод очень хочется иместь что-то такое же точное как Whisper-Large-v2, но быстрое.

Парни из Hugging Face взяли и дистиллировали эту модель, добившись ускорения инференса в 6 раз, с потерей в точности только на 1% WER.

#ликбез:
Если на пальцах, дистилляция - это процесс перегонки знаний из большой модели в более маленькую, чтобы ускорить инференс, но сохранить точность. Работает это потому, что большие модели легче обучить до нужной точности, но как правило количество нейронов в таких моделях избыточно и может быть сокращено после того как тренировка завершена (например, в с помощью дистиляции или прунинга).

Энкодер оставили как есть и заморозили, а в декодере оставили только 2 слоя, так как большинсво операций происходит именно в декодере. Далее эту прелесть дистиллировали на 20к часах опенсорсных аудио-записей.

Веса опубликуют через пару дней под MIT лицензией!

❱❱ Код
❱❱ Статья

@ai_newz

2023-10-29 22:25:50

Ещё раз про ликбез вокруг ChatGPT

Если вам понравилась лекция Карпатого про тренировку ChatGPT (я писал о ней тут), то советую также глянуть на русском языке лекцию Игоря Котенкова "RLHF Intro: from Zero to Aligned Intelligent Systems" в рамках DataFest 2023, которая покрывает историю развития LLMок и даёт пищу для размышлений.

Игорь ведёт канал @seeallochnaya, а также его можно знать по популярным постам на хабре, например, как работает ChatGPT "на пальцах" для нетехнарей - вот ссылка. Пост, кстати, вошел в топ-10 самых залайканых на Хабре в этом году!

@ai_newz

2023-10-27 14:13:07

На этой неделе не так много постил, все из-за моей подработки в Мете. Поэтому держите мем вместо вдумчивого поста.

Вы же понимаете, что мое основное занятие — это постить в канальчик (лол).

У меня был очень интенсивный режим из-за дедлайнов по нескольким проектам, и приближается CVPR. Нейронки сами себя в продакшн пока не запиливают (жду с нетерпением), да и CVPR статьи сами тоже не пишутся. Так, что приходится пока этим заниматься самому 🌚.

@ai_newz

2023-10-24 18:21:35

Запомните лица этих приятных джентльменов. Это три самые влиятельные фигуры в мире Deep Learning-а.

Как много бы отдал один господин в кепке, чтобы стоять рядом с ними...

Если вы внимательно читаете мои посты, то могли уже понять, что мой друг Ян ЛеКун — один из самых знаменитых людей, кто противостоит AI-алармистам. Например, Бенжио и Хинтон принимают хоть и беспокойную, но не радикальную позицию по поводу угрозы AI для человечества.

Здорово, что разные точки зрения не мешают трем отцам Дип Лернинга адекватно общаться и дискутировать, ведь в споре рождается истина.

@ai_newz

2023-10-24 13:31:05

Наконец-то мы переходим к человеческим гуманоидам!

Наткнулся на стартап figure.ai, главный фокус кототорого — это создание многофункционального робота, похожего на ~~железного дровосека~~ человека.

Компании чуть больше года от основания и она уже достигла приличного прогресса (пока без заднего сальто, правда).
А летом стартап поднял $70 млн в Series A раунде.

@ai_newz

2023-10-24 13:31:05

@ai_newz

2023-10-23 12:13:24

🔥Virtual Humans — курс от Gerard Pons-Moll

Продолжаем #ликбез-ить. В прошлом году я постил список топовых лекций по теме 3D Humans, а на этот раз смотрим курс о Виртуальных Людях от Gerard Pons-Moll, профессора из Тюбингена. Жерард Понс-Молл, на секундочку, один из лидеров в сфере 3D людей наряду с другими мощными ресерчерами из Тюбингена (Michael Black). С Жерардом мне посчатливилось наконец пересечься и познакомися на CVPR этим летом. И вот на днях он выложил свои лекции в публичный доступ!

Из курса можно узнать все о том, как моделируются виртуальные люди, как их обучают и как реконструируют. А так же о том как моделируется одежда, взаимодействие людей с окружающими их объектами и синтезировать их движение, например, для управления персонажем в игре.

Для большинства ваканский в Reality Labs эти знания — база.

1⃣ Курс на ютубе
2⃣ Доп. список лекций от других топовых ученых по теме

@ai_newz

2023-10-19 19:57:00

Воу! OpenAI расщедрились и выпустили статью про Dalle-3

Dall-E-3 - вышла именно статья, по формату похожая на NeurIPS, а не model card в стиле открытости.
НО РАНО Я РАДОВАЛСЯ. Цитата: "It does not cover training or implementation details of the DALL-E 3 model." (с) ClosedAI

Всё что видите на скрине выше - это все детали насчет самой модели. Ну, в принципе, я не удивлен. Из "очень подробного" аппендикса я понял, что Dalle-3 теперь тоже Latent Diffusion, только с несколькими стейджами и с дополнительным декодером, к которому применили Consistency Distillation (внезапно!).

А вся статья посвящена тому, как получше собрать датасет и хорошо сгенерировать подписи для картинок. Dalle-3 и правда очень чутко отзывается на входные описания.

Статья: https://cdn.openai.com/papers/dall-e-3.pdf

Больше классных картинок от Dalle-3: тык.

@ai_newz

2023-10-18 17:44:33

ChatGPT жестит на празднике у Хинтона...

Вчера у Хинтона, на минуточку лауреата премии Тьюринга за Deep Learning, был праздник по поводу его выхода на пенсию из Google. Собрались мастодонты индустрии. Средний индекс Хирша на фото равен 108.

Слева направо: Jeff Dean, Andrew Ng, Jeff Hinton, Quoc V. Le

Ради справедливости, Хинтон тут единственный, кто четко подобрал лук, с этим даже гепетэ согласился.

--
Inspired by this.

@ai_newz

2023-10-18 15:11:45

🔥Denoising Diffusion Models: A Generative Learning Big Bang - Туториал

Ребята из NVIDIA и Стенфорда наконец опубликовали туториал по диффузионным моделям с CVPR 2023. Это обновленная версия похожего туториала с CVPR 2022, но улучушенная и с актуальными прикладными примерами.

Это, пожалуй, лучший курс по диффузионкам для вкатывания за 3 часа, состоящий из трех секций:

1️⃣ Fundamentals
Training, sampling, guidance

2️⃣ Applications on natural images
Architecture, editing, personalization, fine-tuning, "low-level" vision etc.

3️⃣ Applications on other domains
Inverse problems, video, 3d, motion, large content generation, etc.

Я хоть и видел его частично на конференции в этом году, а также его предыдущую версию в 2022, все равно собираюсь полностью еще раз посмотреть.

Видео (3ч)
Сайт туториала
Мой пост про любимые материалы по диффузионкам: тык.

@ai_newz #ликбез

2023-10-18 12:54:42

Если кто не знает, то мой основной фокус в Meta GenAI — это диффузионые модели. Я считаю эту модель очень красивой и теоретически и на практике.

Вот пара слайдов (источник), которые наглядно показывает как с 20 года растет популярность Диффузионых Моделей, и как уходят Ганы. Интересно как за год большинство статей перешли на Latent Diffusion, что вертится под капотом у всем известной Stable Diffusion (тык) для генерации изображений.

@ai_newz

2023-10-17 13:31:41

Чел уже живёт в будущем. Ну а чё, такое нас и ждёт повсеместно, когда AR девайсы станут маленькими и более автономными.

Заметьте, что тетка на кассе даже глазом не повела, как будто у нее в кафе там каждый второй так ходит.

@ai_newz

2023-10-16 12:48:30

На каждой крупной конференции выбираются несколько лучших статей и им вручают "призы". Обычно это статьи, которые перевернули область с ног на голову, либо те, что имеют потенциал очень сильно повлиять на ход будущих исследований. Еще отдельно выделяют лучшую статью, где первый автор - студет (включая аспирантов). #конфа

В этом году на ICCV 2023 победили следующие работы.

1️⃣ Лучшие статьи:
- ControlNet [Stanford]
- Passive Ultra-Wideband Single-Photon Imaging [UoT]

2️⃣ Почетное упоминание - Segment Anything (SAM) [Meta AI]

3️⃣ Лучшая студенческая статья - Tracking Everything Everywhere All At Once [Cornell + Berkeley + Google]

---

В разные года выбор лучших статей у меня вызывал сомнения, но ControlNet, хоть и технически простой, это действительно заслужил. От появляния на arxiv в феврале, до публикации на ICCV работа успела набрать 24k звезд на гитхабе, >300 цитирований, и используется в сотнях пет-проектах с SD.

SAM - тут просто без коментариев, работа супер влиятельная.

Tracking Everything - Универсальный трекер. Тоже крутая работа, по духу да и по названию похожа на Segment Anything.

Про Single-Photon Imaging ничего сказать не могу, не моя тема совсем. Разве что, коммиссия любит выбирать что-то неортодоксальное, но потенциально с большим импактом.

@ai_newz

2023-10-13 21:22:32

Spinning Up in Deep RL - мини-курс от OpenAI

Думаю, стоит написать про этот мини-курс отдельным постом, так как вещь хорошая, я его еще в 2019 проходил. Курс дает неплохую базу по наиболее популярным RL алгоритмам и есть даже секци "Как стать Deep RL ресерчером" со списком важнейших статей по RL.

❱❱ По курсу есть одна огромная видео-лекция на 3 часа:

25:11 Opening & Intro to RL, Part 1, by Joshua Achiam
1:48:42 Intro to RL, Part 2, by Joshua Achiam
2:26:26 Learning Dexterity, by Matthias Plappert
2:58:00 AI Safety: An Introduction, by Dario Amodei

❱❱ Сам курс: тык

@ai_newz

2023-10-13 21:07:27

Так, народ, OpenAI открыли набор на AI Residency.

Это 6-месячная программа в Сан-Франциско, которая предназначена для исследователей из других областей и инженеров для того чтобы вкатиться в AI/ML. По сути как интерншип, но уже для зрелых людей, да и платят $17.500 в месяц, еще и спонсируют визу. В общем, топ возможность!

The program is ideal for researchers specializing in fields outside of deep learning like mathematics, physics, or neuroscience. The program can also work well for exceptionally talented software engineers who seek to transition into full-time Research based positions in the field of AI.

Для подготовки советуют пройти их мини-курс по RL и читать книгу Deep Learning от Goodfellow и Bengio.

Подать можно тут.

@ai_newz

2023-10-13 14:45:05

Не все видосы с демки Zero10 отправились. Вот ещё парочка, включая то, где я размахиваю цепями.

#personal
@ai_newz

2023-10-13 14:00:08

ICCV 2023: Экспо и Демки.

На конфе я познакомился c классными парнями из стартапа Zero10. Попробовал на себе их демо по AR виртуальной примерке. Больше всего понравилось размахивать цепями😃.

С дивана, в этой демке оценивается 3D поза c помощью фитинга SMPL и накладывается отсмаштабированная мешь одежды поверх меши SMPL. Плюс к этому легкая симуляция движения меши при движении человека.

Парни делают AR виртуальную примерку и устанавливают AR-зеркала в торговых центрах. Например, на последнем видео - партнерство с Nike.

#конфа #personal

@ai_newz

2023-10-13 10:39:29

Нетворк, нетворкинг, нетворкович или почему вам нужно посещать конференции

Вернулся с ICCV. Еще раз осознал, что самый важный ресурс в работе - это человеческий капитал. Связи и знакомства существенно влияют на то, по какой карьерной траектории ты пойдешь, позовут ли тебя на стажировку в FAANG, предложат ли тебе участвовать в стартапе на ранней стадии и т.д. Поэтому крайне важно заводить новые знакомства (мы сейчас говорим как минимум в профессиональном контектсе), и стремиться знать как можно больше людей в своей сфере.

Конечно, глубокие знания и опыт в своей области критически важны для карьерного продвижения, но владение социальными аспектами может значительно ускорить ваш рост.

А где удобнее и проще всего знакомится с топовыми людьми из сферы AI и ML? Правильно, на конференциях. Можно поболтать с авторами лучших статей на постерах, сходить на ужин с группой новых людей, познакомиться и пообщаться с сайнтистами из топовых лаб в академии или FAANG на одной из вечеринок, организуемых компаниями. Это только несколько примеров как занетворкать на конференции. Я уже не говорю о про-левеле, когда вы сами организуете воркшоп и приглашаете докладчиков, сами даете доклад либо просто нетворкаете в тусовке эйай ньюз.

Например, приглашение на свою первую стажировку в Facebook AI Research я получил именно благодаря нетворкингу на конференции. В 2018 я выступал на European Conference on Computer Vision с пленарным докладом (фото внизу). После своей презентации я подошел познакомиться с автором заинтересовавшего меня доклада про DensePose от Facebook. Это была Наталия Неверова, которая как раз искала интернов на следующий год. Если бы я к ней не подошел, то и не получил бы приглашение пройти собеседование и не попал бы на стажировку в FAIR.

Так что, друзья, гоняйте на конференции и знакомьтесь - это очень важно!

#конфа #карьера #мойпуть #personal

@ai_newz

2023-10-12 17:45:37

Появился интересный кадр с вечеринки HuggingFace на ICCV. На нем также была замечена тусовка нашего канала (отметил красным овалом).

#personal
@ai_newz

2023-10-08 20:54:21

Вечеринка Hugging Face 🤗

Конференция ICCV уже завершилась. Было так мало времени, чтобы подробно все рассказать, поэтому планирую ещё несколько постов на эту тему.

Как я уже говорил, одна из основных целей таких крупных конференции — это общение и знакомства. Доклады и постеры, конечно тоже важны, но с такой плотностью нового контента все увидеть и переварить практически невозможно.

После докладов, вечерами компании организуют свои вечеринки. В один из дней была вечеринка Hugging Face, на которую я и отправился.

На входе нас встретили лама и альпаки (а как же ещё). Пригласили очень много людей, планировалось, что придет около тысячи человек, а на деле получилось так, что пришло 2000. Кажется, HF впервые организовывал такой масштабный ивент.

Я увидел много старых знакомых и наконец-то познакомился вживую со всеми тремя сотрудниками Hugging Face из Швейцарии (да, их там только три).

Кроме того, меня познакомили с Patrick von Platen — он в HF лидит известную библиотеку Diffusers для диффузионок

#personal
@ai_newz

2023-10-06 10:45:55

Вчера у меня было дежурство на стенде Мета. Я показывал демку ImageBind.

(пост про модель ImageBind был тут).

Не знал, что меня снимают. Автору видео спасибо!

#personal
@ai_newz

2023-10-04 15:43:43

Словился со своим кентом Яном ЛеКуном на ICCV.

#personal
@ai_newz

2023-10-04 09:01:21

Re-ReND: Real-time Rendering of NeRFs across Devices

Мы прямо сейчас на ICCV презентуем постер по нашей статье Re-ReND. Мы представляем новый метод для запекания NeRF-ов в явную репрезентацию, которую можно очень быстро рендерить до 1000 FPS.

Когда рендерится сцена Нерфом, нужно сделать тысячи прогонов черезе MLP из-за вычисления интеграла вдоль каждого луча.

Чтобы ускорить рендеринг, мы предлагаем:
- выдрать из нерфа примерную мешь
- Дистиллировать radience field в специальный ligth field (это когда по координате точки и углу обзора MLP сразу выдает цвет за один прогон, без интеграции)
- Наш light field предсказывает view-dependent и position-dependent эмбеддиги, скалярный продукт которых дает цвет 3D точки.
- Затем мы запекаем эти эмбеддиги как тектсуры на меши
- В итоге получаем текcтурированную мешь, которую можно быстро рендерить в стандартных графических пайпланах с кастомным шейдером

Скорость: 1000 FPS на десктопе, 74 FPS на Quest Pro (демо на видео) и 30-60 FPS на мобилах.

Код
Статья

@ai_newz

2023-10-03 11:49:03

ICCV 2023: Воркшопы и туториалы

Конференция в Париже началась уже с понедельника, но только сейчас удалось написать пост. Наиплотнейше ложится информация, а параллельно идет постоянный нетворкинг.

В первые два дня идут воркшопы и туториалы - это такие мини-конференции внутри конференции, посвященные одной очень узкой теме.

Сегодня я на воркшопе CV4Metaverse, который организует моя команда. Выступал Björn (мой научрук) про Latent Diffusion и масштабирование генеративных моделей.

Кроме того, утром была презентация моих PhD студентов про статью BoDiffusion: Diffusing Sparse Observations for Full-Body Human Motion Synthesis (еще будет подробный пост о ней). После обеда будет еще пачка толковых докладов.

Буду держать вас в курсе!

#personal
@ai_newz

2023-10-01 16:57:32

Друзья, мчусь на ICCV в Париж.

Для новичков, International Conference on Computer Vision (ICCV) входит в топ-3 крупнейших и самых авторитетных конференций по компьютерному зрению и проходит раз в 2 года (меняется с ECCV).

По традиции создал чат-шмят для встреч и нетворкинга.

Если вы тоже будете на кофе, присоединяйтесь,организуем встречу. А если не будете — постараюсь держать вас в курсе всего самого важного!

Не забудьте коротко представиться при вступлении в чат: https://t.me/+lWAOt0D0cUFjYTU6

В последний раз я был на ICCV в 2019 Сеуле. И было круто, надеюсь в этом году тоже удастся максимально интересно и с пользой провести время.

#personal
@ai_newz

2023-09-30 09:37:23

🎙У некоторых уже появился доступ к аудио фичам в новом мультимодальном ChatGPT.

Он и на русском, и на иврите, и на китайском, и на пачке других языков могёт. OpenAI насобирали очень качественный голосовой датасет для тренировки.

Волосы двигаются на голове от осознания того, что ведёшь разговор с LLM, которая говорит так реалистично (особенно на первом видео). Как-то Siri и Google Assistant так реально не ощущались, да они и тупые в целом (пока).

Аудио доступно только в приложении ChatGPT на мобильниках. Для этого нужно его активировать в настройках аппки.

Интересно, откуда американский акцент на русском языке во втором видео? Байес датасета или так нативнее в контексте изучения языка иностранцем 🤔

@ai_newz

2023-09-29 17:48:05

К слову, вот такого реалистичного 3D аватара можно создать в лоб с помощью свежего метода Gaussian Splitting, о котором я уже писал тут.

Разница с Codec Avatars в том, что эта бошка не может быть анимирована. Тут запекается статическая поза человека, поэтому это нельзя назвать аватаром. Но для скана объектов и сцен вполне себе классный подход.

Нужен ресерч, который бы позволил анимировать эти сплатики.

Сорс видео

@ai_newz

2023-09-29 16:20:51

Вслед за ChatGPT Enterprise планом, YandexGPT теперь тоже можно будет дообучать на своих данных и интегрировать в сервисы. Пишут, что с июля 800 компаний уже получили к ней доступ и протестировали ее в своих продуктах.

Теперь те же чат-боты могут запоминать контекст диалога. Публичный релиз API планируют в конце года.

@ai_newz

2023-09-29 12:42:05

Лех Фридман и Марк Цукерберг записали подкастик в Метаверсе. Да не просто в Метаверсе, а в реалистичной ее версии. Оба сидят в разных городах, но общаются как вживую.

Это ультра-реалистичные 3D аватары. Мимика вашего лица точно считывается шлемом Quest Pro и передается для рендеринга в метаверсе. За счет реализма достигается максимальное погружение.

Технология, которая стоит за этим, называется Codec Avatars (я писал о ней ранее). Для подкаста Марку и Лексу пришлось заранее отсканироваться в фотограмметрической установке, а также записать мимику своих лиц в движении. В будущем, плланируется сделать возможным сканировать себя за 1-2 минуты с телефона и получать таких аватаров. Исследования в этом направлении уже ведутся.

Очень круто видеть, как технология такого уровня выходит из лабы и мы видим реальное демо в дикой природе прямо на подкасте.

> Смотреть подкаст
> Лекция об этой технологиии

@ai_newz

эйай ньюз страница 4. Показано 50 статей из 595