Метаверсище и ИИще

2024-03-29 16:00:32

Ну, за синоптиков!
И вот эти вот все сайты с прогнозами погоды.
Держите трушный ИИшный прогноз погоды для любой точки планеты.
https://www.atmo.ai/
И не забудьте ткнуть сюда:
https://earth.atmo.ai/

Вообще огнище. Навье-Стокс на стероидах ИИ.

Такого добра было много у двухминутного доктора года три назад.
Но поглядите, как сделан сайт и почитайте тут:
Navier AI строит симуляции в 1000 раз быстрее, используя наш физико-математический солвер. Наша модель обучена на огромном количестве высококачественных симуляций и отлажена на экспериментальных данных. Высокая точность и аккуратность требуются для инженерного моделирования и являются ключевыми факторами для нашего продукта.

Наша быстрая CFD-платформа позволит инженерам быстро исследовать конструкторские пространства и проводить анализ и оптимизацию конструкции в контуре. Мы снижаем барьер для инженеров аэрокосмической промышленности и машиностроения при создании высокоэффективных конструкций.

Мне нравится задор этих ребят, они активно рейзят деньги. Сама идея заменять дикомедленные численные схемы на предсказания не новая, но кто-то наконец прикручивает ее в прод. И это должно хорошо зайти в графику, где не важна реалистичность или физическая точность. Важна похожесть. Тут она есть.

Ну за диффуры и урчп.
https://www.navier.ai/

2024-03-29 15:37:39

Прошел Adobe Summit. Там было много интересного.

Прежде всего это ControlNet для Firefly под названием Structure reference.
Подробности не раскрыты - какая там внутри модель - canny, depth или все вместе. Вы просто загружаете референсную картинку, пишете промпт и генерация идет в соответствии с пространственной композицией на референсе. Да, похоже на КонтролНет.

А вот следующая штука от адобченко - это уже выход на большие рекламные деньги.
GenStudio - это не только и не столько про генерацию креативов для рекламы, но и про оптимизацию стоимости, измерение эффективности рекламы, то есть про цикл обратной связи. Генерим, смотрим, что перформит лучше, запускаем заново.

GenStudio - это рекламный центр для брендов, предлагающий полный набор инструментов для планирования маркетинговых, рекламных и промо-кампаний, создания и управления контентом, активации цифрового опыта по всем каналам и измерения эффективности.
Это позволяет брендам и корпоративным пользователям отслеживать и просматривать кампании, управлять брифами и видеть поставленные перед ними задачи, а также интегрировано с Adobe Workfront, программным обеспечением Adobe для управления проектами

GenStudio также предупреждает пользователей о том, что контент отклоняется от стандартов бренда, и предлагает предложения по его корректировке.

Вот это уже интересно!
https://venturebeat.com/ai/adobe-introduces-structure-reference-for-firefly-ai-and-genstudio-for-brands/

2024-03-29 06:33:34

Хотел написать, что вышел GROK 1.5 от Маска.
Но нет, он не вышел, вышел пост в блоге твиттора.
Весов нет, доступа нет, даже для ранних бета-тестеров он как бы "будет доступен скоро".
Пост полон оптимистичных бенчмарков, длина контекста огромная, 128К, улучшения в математику и код.
К тому времени, когда дотренируют Лламу 3, у нее будет полно конкурентов на open source поляне.
https://x.ai/blog/grok-1.5

2024-03-28 10:51:01

Взалкали новизны в творчестве? ИИ придет на помощь.

Держите очередную порцию новых нормальных видео. Промпты в титрах.

И знаете, что мне нравится - демократизация. Автор пишет:

Я всегда был творческой студией, состоящей из одного человека, поэтому существовали ограничения на то, что я мог создать в одиночку. С Sora я чувствую, что могу рассказывать истории в таких масштабах, которые раньше мне казались невозможными.

Ждем открытия новых инди-студий. И сокращения штатов у мейджоров.

2024-03-28 09:30:46

У HeyGen обновление - Avatar in Motion 1.0

Теперь вам не нужно напряженно глядеть в камеру и стараться не шевелить головой. Теперь можно махать руками, трясти башкой, снимать стримы на улице(!), ХейГенчик подхватывет все это добро, переводит и липсинкает все это на разные языки.
Еще раз, тут нет генерации аватаров - это перевод, дубляж и липсинк.

А теперь вишенка: для тех, кто считает, что при переходе на испанский качество упало. Оригинальное видео было записано на немецком!

ХейГенщики также отжигают в твитторе: присылайте, говорят, какие глупости должен сказать персонаж, а мы сгенерим это в ленте.
https://twitter.com/HeyGen_Official/status/1773119891068883240

2024-03-28 09:07:31

Stable Diffusion 3 Бот

Как подсказывает нам лента Stable Diffusion на реддите (забавная, читаю), Stable Diffusion 3 раскатали в виде чат-бота, в котором можно генерить картинки. Я об этом уже писал, но доступа за это мне не дали)).
Но всегда можно почитать коменты на реддите:

Говорят, что это одна из младших моделей, что она не тянет хорошее качество и разрешение и что она ЖУТКО цензурирована:

"Ассистент SD3 хуже, чем dalle3 на chatGPT и даже bing image creator. На запрос "две женщины болтают в спортзале" он несколько раз отказывался генерировать что-либо, а потом выдал нечто, похожее на двух мужчин в женской одежде... "full body shot" означает отсутствие изображения. В более реалистичном стиле он по умолчанию (я имею в виду очень часто) генерирует жуткие, обычно немного уродливые лица (например, большие или кривые зубы). Он не любит "привлекательные" и "красивые" и, хотя не отказывается их генерировать, обычно вычеркивает их из подсказки. "Аниме-женщина" означает отсутствие видимой формы груди, либо одетая грудь заслонена другим предметом, либо это детская/мужская грудь, лишь изредка мне удавалось сгенерировать что-то, что я бы классифицировал как часть маленькой груди (опять же, не обнаженной, просто одежда с неясной формой груди). Я очень надеюсь, что слухи о том, что бот использует меньшую модель, правдивы, и цензура портит ее, а не то, что большая модель так плоха.
По крайней мере, половина изображений выглядит хуже, чем из SDXL, и большинству изображений потребуется инпайнт для глаз/рук/конечностей). "

Пока невесело...

https://www.reddit.com/r/StableDiffusion/comments/1bp3i0r/stable_assistant_preview_with_beta_version_of/

2024-03-28 08:28:29

One-step Diffusion

Ускорение Stable Diffusion становится трендом (особенно актуально в преддверии SD3).
Причем генерация в один шаг появилась за последнюю неделю сразу во многих работах.

Собрал три последние работы, поглядите сами:
Xiaomi: https://idkiro.github.io/sdxs/
Адобченко: https://tianweiy.github.io/dmd/
Ёсо: https://github.com/Luo-Yihong/YOSO

Если это разогнать еще с помощью ухваток от Нвидии в виде TensorRT, то можно ждать реалтаймовых генераций с очень приличным качеством.

И это очень круто, потому что продукты типа Krea или Vizcom демонстрируют, что отклик и работа "в картинке" (а не с кнопкой Генерить) являются очень ценными для тех, кто работает с той самой картинкой.

Любопытная аналогия напрашивается - с появлением UE в постпродакшене лет 10 назад. Когда архвизеры увидели, что UE может рендерить их ацкие интерьеры почти в реалтайме, они заплакали (от щастя) и остановили свои тридцатичасовые рендеры в Вирее.

В общем, реалтайм диффузия хорошо зайдет в рынок инструментов для генерации контента.

2024-03-28 07:53:19

Тут вот интернетик верещит новостью "The king is dead" - имея в виду тот факт, что "Claude 3 впервые превзошел GPT-4 на Chatbot Arena". Ну и дальше про похороны короля GPT Четвертого...

Если поглядеть на это трезво, то получается, что где-то, как каком-то ресурсе, на определенных бенчмарках и задачах, Клод обошел на повороте GPT-4 в моменте.

Более того, если почитать основную Y-дискуссию, посвященную этой новости, то выясняется, что даже на отдельно задаче кодогенерации половина кожаных считает, что GPT лучше, а половина, что Клод.

For coding I've found ChatGPT4 a bit better than Claude 3 Opus because it tends to understand my intentions more and I trust it to make better suggestions for code changes.

Ну то есть, бенчмарки бенчмарками, чатботарены чатботаренами, а все люди и задачи разные и пока говорить, что "король мертв" - это лютый кликбейт, конечно (говорю как спец по кликбейту).

Также в коментах можно найти много интересного про GPT-5 и другие теории заговора.

В общем, революции нет, расходимся, и ждем новостей от OpenAI.

https://news.ycombinator.com/item?id=39841390

2024-03-28 07:25:18

Еще один шевеляж лицом.

Помните убойное EMO от Алибабы? Кода, как обычно, от алибабищенко, нет.
Но тут вот ТикТочек выкатил ответочку.
На входе фотка и аудио-файл, на выходе анимированный портрет, который, вроде как, должен под это аудио шевелить лицом.
Можно на вход подавать не только аудио, но и видео, чтобы копировать мимику, получается а ля дипфейк.
Я попробовал - выходит не очень, ответочка так себе. Самая засада, как обычно, в липсинке. Плюс поглядите, как диффузия беспощадно перемалывает надпись Nvidia на ленточке от бейджа.

Но есть код, и можно попробовать самому тут:
https://replicate.com/camenduru/aniportrait-vid2vid

Код:
https://github.com/Zejun-Yang/AniPortrait

Ну и если глянуть в статью, и даже дойти до раздела выводы, то они там пишут, что в будущем они собираются перейти на алибабищенский подход EMO, чтобы поправить качество.
In the future, we plan to follow the approach of EMO, predicting portrait videos directly from audio, in order to achieve more stunning generation results.

Алибаба, код давай, да?!

2024-03-27 07:14:18

Кстати, уже в четырех странах мира - в Индии, Коста-Рика, Венгрии и Чили - признали права китообразных и дельфинов, взяв их под особую защиту на государственном уровне. В 2013 году правительство Индии присвоило дельфинам статус "личностей, не относящихся к человеческому роду". Таким образом Индия стала первой страной, признавшей уникальный интеллект представителей отряда водных млекопитающих - китообразных.

Значит вот эти твари, которые только пищат и смотрят на вас умными глазками - это личности, не относящиеся к человеческому роду. А ИИ, который звучит как личность, выглядит, как личность, говорит лучше 50% кожаных, умнее 80% кожаных - это стохастический попугай?

Представьте, что у вас есть новый вид рыбы, и вы не знаете откуда он взялся. При этом он говорит, рассуждает и врет, как человек. Вы проводите над ним опыты, он дико умный, умеет распознавать картинки и видео, умеет поговорить о них с вами на человеческом. Умеет рисовать картинки силой мысли. И вы не знаете, кто он вощетакой.

Вы будете называть его жалким повторителем?

Кстати, я вот тут подумал, что если замешать в датасеты разговоры на китовьем и на дельфиньем то может быть ИИ выучит кое-что новое...

https://www.anapatravelnotes.com/articles/novosti/184

2024-03-27 07:00:21

Теперь Scaniverse поддерживает Gaussian Splatting

Если кто не в курсе, Scaniverse - это хорошее приложение фотограмметрии и 3Д-сканирования. Сканы можно редактировать, как и фотографии, обрезая, поворачивая, настраивая экспозицию или контрастность, а также экспортировать в популярные форматы OBJ и FBX для совместимости с программами 3D-моделирования и игровыми движками.

Круто, что Гауссианы вползают в разные пайплайны. И обратите внимание - все это крутится НА УСТРОЙСТВЕ, то есть на телефоне.

Пользователю, в общем, все равно, меш это или гауссианы, главное чтобы было красиво.

https://scaniverse.com/

2024-03-27 06:42:48

Ну и вот вам целое агенство по производству рекламных видосов (креативов), на которых (как выяснилось кожаные) актеры впаривают потребителям все что угодно.
Пишете сценарий, выбираете актера, генерите видео с нужным языком и липсинком.
Тут дополнительный слой в том, генерация заточена именно под рекламные видео.

Дорого, 100 баксов в месяц за 10 видосов.

https://app.arcads.ai/

2024-03-27 06:19:15

Аватарифай на стероидах.

Тут не знаю, за кого выпить в первую очередь: за тикток танцы, за вебкам, за цифровых инфлюенсеров, за аниматоров...

Про вебкам уже выпивал, кстати.

Одно время назад интернетик полнился анимацией портретов (типа Аватарифай) - загружаешь фотку (Мону Лизу, например), а ИИ заставляет ее кривляться или корчить разные смешные морды. Проекты типа D-ID берут морду лица и учат ее говорить всякие глупости.

Но постепенно ИИ добирается и до, скажем так, поясного плана, включающего в себя руки, плечи и часть корпуса.

На входе одна фотка и какой-то примерчик из библиотеки движений. И вот уже ваша фотка лихо пляшет на видео, размахивая руками.

Тут я подумал, что анимации можно брать из предыдущего поста.

По сравнению с тем, что раньше все эти цифровые инфлюенсеры делали тупую пересадку сгенерированного лица на реальные фото и видосы (по сути дипфейки), это уже шаг навстречу полной генерации и лица и тушки.

И есть код и проект:
https://github.com/fudan-generative-vision/champ
И объяснялка:
https://www.youtube.com/watch?v=2XVsy9tQRAY

И даже сами можете попробовать!
https://replicate.com/camenduru/champ

2024-03-27 06:03:09

Ну, за аниматоров, в пятый раз!

Аниматоров обкладывают флажками со всех сторон.
С одной стороны нейромокапы, с другой генераторы анимации.

Вот тут еще один интересный проект.
Их фишка - перенос стиля анимации. Ну то есть берете какую-то стандартную походку и наваливаете на нее стиль зомби или гоблина.

Мессадж вот такой - No Capture. No Cleanup. Just Animate

Я у них вот тут:
https://www.motorica.ai/mogen

не увидел стиля "Дисней" - можно было бы выпить за аниматоров бесповоротно, а пока это повод вернуться к этому вопросу позже.

2024-03-27 05:42:29

MatX: Очередной новый чип - убийца Нвидия.

"Наше оборудование позволит обучать GPT-4 и запускать ChatGPT, но в рамках бюджета небольшого стартапа.

Наша команда основателей разрабатывала чипы в Google и Amazon, и мы создали чипы, имея 1/10 от размера команды, которая обычно требуется. Вот как мы подходим к решению проблемы неэффективных и недостаточных вычислений.

В то время как другие чипы одинаково относятся ко всем моделям, мы направляем каждый транзистор на максимизацию производительности самых больших в мире моделей. Наша цель - заставить лучшие в мире модели ИИ работать настолько эффективно, насколько это позволяет физика, что позволит миру на годы вперед продвинуться в качестве и доступности ИИ. Мир с более доступным интеллектом - это более счастливый и процветающий мир. "
https://twitter.com/MatXComputing/status/1772615554421170562

2024-03-27 05:25:43

ИИ-текстурирование.

Уже писал про ИИ-текстуры.

Тут вот китайские товарищи делают не только генерацию текстур, но и некоторые инструменты для этого. То есть взаимодействие и управление на протяжении всего процесса генерации, которое позволяет перекрашивать конкретные области и точно редактировать текстуры. Они также разработали единую модель инпайнтинга с учетом глубины, которая объединяет информацию о глубине с подсказками по инпайнту, эффективно смягчая 3D-неконсистентность и повышая скорость генерации.
https://me.kiui.moe/intex/

2024-03-26 12:58:20

Если вы не в курсе, то на нетфликсе (и в интернетике) появился свежеиспечённый сериал "задача трёх тел".
И это не китайский ультрамногосерийный неторопливый сериалище.
Это огонь.
Ибо.
Сделали его ... те самые Вайс и Бенёф -
создатели Игры Престолов!
Одну из главных ролей играет тот самый толстяк Сэм, и роль его принципиально иная. Ядовитый циник.

Наверняка поклонники книги будут ругаццо в процессе, но я смотрю как на самодостаточное произведение. А сравнивать лучше с китайским вариантом

Мне пока нравится...

2024-03-26 07:53:56

Ну и дальше про воображение. Трехмерное притом.

Тут вот все пока упорно называют SORA генератором видео. И только некоторые смышленые авторы робко пишут про генерацию миров.
Вот на этом видео - физические скульптуры (огромные) из мрамора, которые были сделаны на основе того, что нагенерила СОРА.

Алекс Ребен создает скульптуры на основе ИИ-изображений. "Мой опыт использования Sora стал отправной точкой для создания 3D-скульптуры. Мои мысли устремились к изучению сферы фотограмметрии и ее потенциального применения в скульптуре. Перспектива преобразования видео в 3D-модели заинтриговала меня, поскольку она намекала на то, что система искусственного интеллекта может выйти за рамки своих первоначальных возможностей".

Обратите внимание, как все авторы сознательно или бессознательно оговариваются "про выйти за рамки своих первоначальных возможностей".
Думаю вопрос фетишизированной новизны в творчестве тоже можно закрывать.
https://twitter.com/artBoffin/status/1772418681261474099

2024-03-26 07:36:34

Судя по этому видео, можно выпивать за рекламные агенства, причем оптом: от копирайтеров и генераторов идей до продакшенов и поспродакшенов.
https://openai.com/blog/sora-first-impressions

Но я привалю за кино. И воображение.

С начала 2000-х (по крайней мере в кино) сторителлинг планомерно дополнялся созданием вселенных. Ну то есть просто хорошо рассказанные истории продолжили оставаться мейнстримом, а хитами стали разные миры и франшизы. Все эти вселенные Марвела, комиксизация кино, бесконечные повторы Трансформеров - все это создание и заселение миров.

Это я к чему? Вот в прошлом году сценаристы уже устроили очередную забастовку, триггером которой послужили участившиеся случаи написания сценариев с помощью LLM. И это не удивительно. В сторителлинге языковые модели и разные докрученные инструменты будут уделывать кожаных скоростью и качеством.
Но если присовокупить к этому SORA, то и создание миров ствновится прерогативой ИИ - причем с мгновенной проверкой разных гипотез. Кожаный писатель годами строит у себя в голове огромный мир, в который приглашает читателей не факт, что его воображение совпадет/попадет в ожидания читателей. А SORA позволит тестировать миры непосредственной глазками. И не факт, что кожаными. Оценка "способности нравиться" может быть заложена и на этапе обучения (как в случае с chatGPT), так и в процессе файнтюнов.

И я не столько про создание кино или видео с помощью ИИ (что судя про вояжу Альтмана в Голливуд уже решенный вопрос), сколько про создание миров в головах кожаных. Чем изначально занимались избранные авторы.

Ну, за воображение.

2024-03-26 07:33:42

SORA: Когда все проспал.

Вроде и живешь раньше всех на 4-5 часов во Вьетнаме, но минус в том, что ложишься спать, а ночью в интернет вываливаются жирные новости.

Итак, Open AI дали доступ у SORA некоторым избранным. Избранные офигели, но видео показали.

Вот тут примеры того, что СОРА умеет в умелых руках.
Поглядите на все эти безобразия тут:
https://openai.com/blog/sora-first-impressions

В шапке одно из видео Пола Трилло - он получил 19 премий Vimeo Staff Picks, которые присуждаются лучшим короткометражным фильмам, размещенным на Vimeo. "Работа с Сорой - это первый раз, когда я почувствовал себя свободным режиссером, Сора наиболее эффективна, когда вы не копируете старое, а воплощаете в жизнь новые и невозможные идеи, которые иначе мы никогда бы не увидели".

Этот видос не столько про качество а про выход за границы.

А я, как обычно привалю диванных мыслей следующим постом.

2024-03-25 05:09:09

Реалтаймовый нейролипсинк(?)

Есть такая опен-сорсная библиотека wav2lip.
Она основана на коде из статьи: A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild, опубликованной на ACM Multimedia 2020.
Она перестала обновляться 3 года назад.
А пару недель назад там обновилось Readme.
Где появилась ссылка на сайт https://synclabs.so/
И на YCombinator https://www.ycombinator.com/launches/KbD-sync-an-api-for-realtime-lipsync

На первом сайте сходу просят денег.
На втором висит очень плохое некачественное демо.
Губы дрожат даже когда персонажи молчат.

Ну то есть внешне это выглядит плохо: "мы когда-то написали wav2lip, бросили ее, а теперь расчехлили обратно и хотим денег, демонстрируя очень плохое качество".

Меня зацепило слово realtime, которое они постоянно обозначают на сайте - пока реалтайма нет ни у кого, и сюда все стремятся. Есть много в разы более качественных проектов типа Rask.ai или атомных обещаний от Алибабы с убойным качеством.

Также они манифестируют on-device real-time video translation - и тут я не сильно верю, что это можно сделать в нормальном качестве, да еще и в реалтайме.

Дальше идет футуризм и довольно интересные идеи:
мы можем вывести человеко-компьютерный интерфейс за рамки текстовых чатов
Возможно, встраивание контекста в выражения и язык тела при вводе/выводе данных поможет нам взаимодействовать с компьютерами более человечным образом.

Звучит, конечно, интригующе, но пока выглядит как попытка сделать подписочную модель на коде четырехлетней давности с очень плохим итоговым результатом.

Если у вас есть опыт работы с wav2lip - пишите в комментарии.

2024-03-23 07:00:02

Эмада Мостака, СЕО Stability AI, уволили.
Из совета директоров он также вышел.
И пошел заниматься децентрализованным ИИ.
Может быть и к лучшему.
https://stability.ai/news/stabilityai-announcement

2024-03-22 15:38:32

Люблю всяку-разну статистику (склонен к сверхобобщениям) и датавиз.
Поискал статистику по массадопшену ИИ (в коментах возникла гипотеза, что мы варимся в пузыре ИИ) и нашел Нейростат, а там интересные тренды:

Молодежь (18–34 лет) чаще использует текстовые нейросети для работы и учёбы, в то время как более взрослая аудитория (45–65 лет) отдаёт предпочтение генераторам картинок для личных дел и развлечения.

А вы говорили, что зумеры не читают, а только картинки в инсте смотрят.

У молодежи хитами поиска стали написание кода, постов в соцсетях и формирование контент-планов. Пользователи старше 45 лет чаще других применяют нейросетки для создания музыки, обработки и улучшения качества фото.

Мы тут с вами творческие старперы, похоже.

По задачам тоже интересно:
18–24 лет: создание презентаций;
25–34 лет: создание логотипов;
35–44 лет: создание карточек товаров;
45–54 лет: генерация изображений по фото;
55+ лет: улучшение качества фотографий.

18–24 лет: 77% слышали о таких продуктах, а 59% применяли их.
55–65 лет: 45% опрошенных слышали о текстовых нейросетях, а применяли только 11%.

Дальше интереснее:
Мужчины применяют их чаще, чем женщины.
29% опрошенных мужчин использовали нейросети для генерации текста, а 36% — изображений (мы знаем, каких).
Среди женской аудитории показатели составили 23% и 31% соответственно.
По данным Нейростата, мужчины больше верят в будущее нейросетей. Доля тех, кто воспринимает нейросети как временное развлечение, выше среди женщин.

А теперь вишенки:
С начала 2022 года интерес к нейросетям вырос более чем в 15 раз!
Слово «нейросеть» встречается в запросах примерно так же часто, как «караоке», «рыбалка» и «помидоры».

Это слава, ящетаю! За ИИ!

Ну и вот такие поиски, конечно, радуют:
как попасть в нейросеть
где взять нейросеть

Все эти данные были получены с помощью опроса респондентов в возрасте от 18 до 65 лет, а также анализа обезличенных поисковых запросов пользователей Яндекс Поиска. Кстати, их обновляют раз в три месяца, можно отслеживать превосходство над рыбалкой и помидорами.

2024-03-22 11:57:56

Один ИИ подрался с другим ИИ.

А вот это уже очень интересно!
Я запостил ИИ-музику в фейсбучек, и получил страйк:
Следующие действия применены к вашему видео, так как оно может содержать 1 минуту и 56 секунд аудио, принадлежащего правообладателям.

На сайте Loudly, где я забрал ИИ-музику белым по черному написано:
Pre-cleared music catalog for YouTube and all social media

Но похоже метачкин ИИ ничего про это не знает и жучит меня на всякий случай.

2024-03-22 11:06:03

Suno.ai Version 3 доступен для всех, а не только для Premium юзеров!
Больше жанров, стилей, а главное, лучшее следование промпту.
Го сунить и композить новые шедевры.

2024-03-22 09:59:03

Очень горячие новости от Midjourney

Они работают над новыми моделями создания 3D, видео, и realtime-моделями(!), которые позволят ей моделировать весь мир.

Судя по office hours, это будет виртуальная среда, в которой люди смогут создавать видеоигры или снимать фильмы - “open world sandbox”. Также Хольц заявил, что v7 будет большим скачком, чем 5 и 6 - работа над седьмой версией уже началась и 3D-генерация может появиться раньше видео.

Также он сказал (внимание!!!): "I don't really like the Apple Vision Pro, we'll probably need to make our own headset"

"Для ясности, мы не работаем над гарнитурой прямо сейчас (мы работаем над аппаратным обеспечением, связанным с захватом данных), но мы создали и открыли исходный код AR-гарнитуры >6 лет назад в Leap Motion"

"Мы действительно пытаемся перейти к симуляции мира. Мы создаем 3D midjourney, video MJ, & real-time MJ, где все происходит очень быстро".

Он добавил, что если соединить все это вместе, то получится симуляция мира. По его словам, цель состоит в том, чтобы создать каждый из этих трех элементов независимо друг от друга, а затем работать над тем, как объединить их вместе.

В воздухе отчетливо повис аромат метаверса. От Midjourney.

https://www.tomsguide.com/ai/ai-image-video/midjourney-announces-plans-to-create-an-ai-world-simulation-tool-in-full-3d

2024-03-22 06:42:58

Про image-to-3D я уже писал всю неделю.
Сегодня про 3D-to-image, то есть про нейрорендеринг.
Нашел вот такую смешную штуку с интересным позиционированием:
It’s like Canva for 3D
Так вот у них есть Kraken AI, который позволяет нейрорендерить ваши 3Д-сцены причем с разными моделями с Цивитай.
Самое удивительное - разработчик НЕ просит денег (псих).
https://glowstick3d.com/kraken
Это просто прога для Винды.

2024-03-22 06:31:21

Оу, лыжные маски больше не нужны!
Маск пишет, что они успешно возвращают зрение слепым обезьянам.
Низкое разрешение пока, примерно как в ранних Nintendo, но это уже картинка в голове обезьяны. И ни одна обезьяна не померла!

То есть цикл замкнулся. С иголочки не только снимается сигнал (позволяющий двигать курсор, например), но она же может доставлять некие сигналы обратно в мозг, формируя картинку.

Ждем метаверсик от Маска: снимаем сигналы с кожаного и вонзаем ему в мозг картинку, которая предназначена именно ему. И ставим рядом рычажок.

Забрал новость у Дениса.

2024-03-21 12:42:03

Пока мы все ждем Stable Diffusion 3, Эмад Мостак сообщил сотрудникам, что Робин Ромбах и его команда ресерчеров, которые занимались разработкой Stable Diffusion, уволены.
https://www.forbes.com/sites/iainmartin/2024/03/20/key-stable-diffusion-researchers-leave-stability-ai-as-company-flounders/

2024-03-21 12:23:04

А теперь вернемся к вчерашнему 3Д-генератору от Шаттерстока.
Смотрите, что мне пишет подпищщик Леша:
В блендоре чутка поправил пропорции, текстурку мазнул, так, чисто поиграться.
В принципе если надо быстро накидать что-то для тестов - супер решение, кмк. Сильно лучше стоков. Не надо искать, просто генеришь и сразу бросаешь в сцену себе.

Дальше - больше! Подключаем krea.ai:

В общем, имея болванку быстро можно накидать идею, через КРЕА её получить в более понятном виде и тогда уже вернуться в моделинг и уже ручками всё вот это как мы любим.

Мне нравится идея получать быстрые болванки и от них уже плясать - доскульпчивать, ретоп и т.д.

В общем, взрослые мальчики не ждут одной кнопки, а комбинируют разные (иногда сырые) решения в свой пайплайн. И не ищут блох.

2024-03-21 12:17:31

Вы извините, что я к вам опять пристаю со своим 3Д.
Нашел еще одну генерилку 3Д с разными ништяками.
Там все кучеряво и в дополнение к обычному text-to-3D и image-to-3D? там в меню еще присутствуют Rigging AI, Texturing AI, есть также Remesh и Multi-Format Export (FBX, OBJ, STL, USD).
Но конечно, все это спрятано за подписку, кредиты, причем с очень неочевидной моделью монетизации.
Я поглядел обзоры - качество меша там такое же как у всех генерилок, а вот что делают магические риггинг и текстуринг неясно.
Подозреваю, что с точки зрения традиционного пайплайна ничего особенного. У кого был опыт, дайте знать в коментах.
https://3daistudio.com/https://3daistudio.com/

2024-03-21 12:06:31

Нуштош, пошла жара.
Илон Маск показал, как человек с вживленным чипом играет в шахматы силой мысли. Точнее передвигает фигуры на экране. Чувствует себя отлично, говорит, что собирается поиграть в разные игры.

Готовимся исторгать промпты силой мысли и потреблять контент в лыжных масочках.

Все готово.

Го в матрицу.
https://www.youtube.com/watch?v=ZzNHxC96rDE

2024-03-21 01:52:29

Держите новой ИИ-музики.
World прям очень хороша и похожа на ту музику, которую я слушаю. Ну и она "интересная". Как я уже писал, новая ИИ-музика полна разных идей, которые кожаные композиторы могут совершенно бесплатно тырить. В данном случае мне нравятся аранжировочные идеи.
Funky вообще отлично, PopFunk тоже.
Я вчера слушал все это на перегоне Сайгон-Муйне и понимал, что когда-то покупал на Горбушке пластиночки именно с такой музыкой.

Генератор называется:
https://www.loudly.com/music

Мне не нравится их ценовая политика и разные ограничения - скачать нельзя, сайт работает кривовато, генерация вечно не работает "Based on a large number of requests, this song cannot be generated at the moment."

Но музика на их сайте мне нравится. Я даже приложение скачал, слушаю.

2024-03-20 16:31:09

Исследователи Сбера и SberDevices нашли способ дистиллировать современные языковые модели (уменьшать в размерах без потери качества). Своим открытием в области искусственного интеллекта исследователи поделились на международной конференции EACL-2024, прошедшей на прекрасной Мальте.

О работе на тему исследования свойств трансформерных архитектур моделей, в которой принимали участие ученые Сбера, рассказали кандидат технических наук, руководитель научной группы FusionBrain научного партнера Сбера – Института AIRI Андрей Кузнецов и научный сотрудник группы FusionBrain Антон Разжигаев. Соавтором работы выступил управляющий директор по исследованию данных Сбербанка Денис Димитров. Они изучили процесс изменения свойств эмбеддингов (числовых представлений данных) двух типов архитектур больших языковых моделей, часто используемых в задачах обработки естественного языка. И результаты исследования теперь помогут в создании новых архитектурных решений при обучении языковых моделей и снижению вычислительных затрат.

Руководитель команды AGI NLP в R&D SberDevices Алена Феногенова и NLP ML-инженер Сбербанка Марк Баушенко представили на конференции свое исследование о генеративных подходах к исправлению орфографии. Новая методология уже по ряду характеристик опережает по качеству открытые решения (HunSpell, JamSpell) и модели OpenAI (gpt-3.5-turbo-0301, gpt-4-0314, text-davinci-003). Академическая статья доступна на сайте конференции. Исследователи в своем методе используют библиотеку SAGE, датасеты и семейство генеративных моделей, обученных для задачи исправления орфографии.

2024-03-20 11:27:56

В чатике 2000 человек. Не знаю, как это отметить, выпивать, не чокаясь уже сил нет. Поэтому просто почитаю умные комментарии от подписчиков. За философию там идут серьезные баталии. А канал выходит на рубеж 24 000.
Никогда не закупал трафик или подписчиков, даже не знаю, что это такое. Органическая золотая аудитория. Всем большое спасибо!

2024-03-20 11:06:36

Ну и ретоп там идет как пост-процесс. И круто, что можно задавать фейс и вертекс count. Надо попробовать низкие значения.

2024-03-20 11:04:09

Хотя в лица ему сложно, видать в датасетах меньше органики, чем пропсов. Это Будда, которому явно нехорошо, несмотря на рефайн.

2024-03-20 10:58:22

Ну и самое потрясающее, что Шаттерстоковый 3Д генератор пытается в UV-развертки. Не идеально, но видно, что он был обучен на моделях с развертками, а не просто на каше из вертексов, как в Стабилити или в Люме.
Пробуем тут:
https://build.nvidia.com/shutterstock/edify-shutterstock-3d-txt23d-2pt7b

2024-03-20 10:16:14

Это сетка 3д генератора от Shutterstock из предыдущего поста. Лучшее, что я видел, не считая полукожанного kaedim

2024-03-20 09:45:48

3D генерация становится must have в приличном обществе.
Количество генераторов растет буквально каждый день.
Но вот заявление от Shutterstock - это прям горячо, ибо у них под капотом есть Turbosquid - огромный сток 3Д-моделей. Ну и с картинками у них все тоже хорошо.
Поэтому у них может получиться несколько лучше, чем все эти многочисленные обмылки, вылезающие из ИИ-генераторов.
Заявлено и text-to-3D и image-to-3D.
На демо-ролике все леденцово-сладко и я не думаю, что это их реальные примеры, а просто хороший моушен-дизайн.
Причем выкатывают они сразу API.
Очень интересно будет посмотреть.
https://www.turbosquid.com/ai-3d-generator/early-access

Update:
Дима Рубцов пригнал в коментах демо! Пробуем тут:
https://build.nvidia.com/shutterstock/edify-shutterstock-3d-txt23d-2pt7b

Я попробовал. Мыло. Но там есть face count и слова про ретоп. Навалитесь с тестированием в комментариях...

Ого, я задрал face count и сделал рефайн.
Смотрим след пост.

2024-03-20 04:52:40

Если вы хотите не только смотреть видосы из SORA, но и немного разобраться, как она устроена, узнать про "модели мира" у ЛЛМ, латентные пространства и агентность - почитайте статью Игоря. Огромная ценность статьи в том, что она написана Понятным языком. Очень рекомендую:
https://habr.com/ru/articles/794566/

2024-03-19 10:18:40

Зловещая долина и 3Д - по мотивам предыдущего поста.
Если кто-то идет по пути традиционного 3Д (полигоны, блендшейпы, анимация лица в 3Д), то на рендере ВСЕГДА будет зловещая долина. Мы в кино это прошли уже лет 20 назад, после выхода Spirits Within (2001).
Это не проблема технологий (точнее да, это проблема 3Д рендера) - это проблема с мозгами - они так устроены. Чем реалистичнее персонаж, тем он будет в анимации более зловещ и отторгаем мозгом. Тут совет - делайте в 3Д нереалистичных, шаржированных, мультяшных персонажей.
В интернетике полно потрясающих рендеров лиц, поглядите например что делает Ian Spriggs, я видел его в деле живьем. Этот уровень просто не побить(да, это 3Д, не рисунки). НО. В анимации это все разваливается - так устроен мозг и 3Д-рендер.
Как бы сладко не было на картинках и стилах - в анимации будет говно.

Другой путь - нейрорендер, типа D-ID, Хейгена, Алибабы, Раска и еще тучи проектов (поляна горячая, все алкают персонажей). Там все в разы лучше с долиной (мы верим видосам, глаз насмотрен на кино и видео и фотках). Но там (пока) нет реалтайма и там ограниченные ракурсы, мимика и вообще свобода творчества. Впрочем для аватаров вполне годицца уже щас. Думаю за полгода сделают реалтайм.

На итоге: если идете путем 3Д-рендеринга и анимации, готовьтесь к зловещей долине. Ее не перескочить через 3Д.

2024-03-19 10:11:55

Был такой стартап Inworld AI - построение игровых миров и даже персонажей с помощью AI.

Их купила Microsoft в ноябре. При этом они уже получили 50 миллионов долларов в рамках предварительного раунда от Lightspeed Venture Partners.

Так вот, вчера NVidia показала демо на основе Inworld AI. И выглядит это как нодовый конструктор миров и NPC (неигровых персонажей).

От Нвидии там задействованы: NVIDIA ACE(создание персонажей), распознавалка голоса(ASR) NVIDIA Riva и оживлялка мимики по аудио - NVIDIA Audio2Face.

Анонсировано, что под каждого игрока может быть сделано индивидуальное прохождение, а все эти ИИ-агенты будут жить своей жизнью.

Звучит как план перевернуть геймдев.

Но я не могу смотреть на эти зловещие лица, профдеформация. Наверное в играх так принято - принимать зловещую долину как данность, но меня воротит, сорри.

По замыслу, конечно, огонь. Задаешь историю, дальше все это начинает жить свой жизнью. Жду, когда в игры завезут нейрорендеринг, нерфы, гауссианы, PAPR и прочие незловещие технологии.

2024-03-19 09:40:44

Немного утечек про грядущую Stable Diffusion 3 TURBO (картинки оттуда)

Для гиков - есть бумага вот тут:
https://arxiv.org/abs/2403.12015
Для нормальных - ускорение на 60-80% по сравнению с нормальной SD3.

По поводу самой Stable Diffusion 3 - вначале ее раскатают как "бота".
Ибо.
Старшие модели Stable Diffusion 3 не влезут даже в 24 гига видеопамяти. Точнее влезут, но if you offload TE(s) and VAE.

Поэтому, чтобы собрать фидбек Стабилити сделает сначала облачный доступ. Про сроки релиза весов ничего не известно.
Я записался в вейтлист, жду.

2024-03-19 09:25:58

Вот пример того, что вылезает из первой модели Stable Video 3D.
Слева результат работы SV3D_u (видео), справа это видео прогоняют через апскейлер. Генерации меша тут нет.

2024-03-19 09:18:37

Stable Video 3D

Вы будете смеяться, но Stability AI снова выпустила модель для генерации 3Д.

Точнее две модели.

Первая, SV3D_u, не генерит 3Д, а генерит только видео облетов объекта с разных сторон. На входе - одна картинка, на выходе - видео с облетами камерой.

Вторая модель, SV3D_p, использует первую, чтобы нагенерить много ракурсов и уже по ним сделать полигональный меш (не ждите суперкачества, это все те же marshing cubes, то есть неявные поверхности).

Сравнивают со своими же Stable Zero123 и Zero123-XL.
https://stability.ai/news/introducing-stable-video-3d
Код и веса уже выложили. И первую модельку вроде даже уже прикрутили в ComfyUI.

Repository: https://github.com/Stability-AI/generative-models
Tech report: https://stability.ai/s/SV3D_report.pdf
Video summary: https://youtu.be/Zqw4-1LcfWg
Project page: https://sv3d.github.io

2024-03-19 08:58:05

Сидят такие аниматор, эфыксер и шейдер-артист, собирают полторы тысячи нод в Худини, чтобы сделать зеленого слона из листьев. Хорошо так сидят, месяц. Подрендеривают периодически.
Потом в сердцах: "да как же сделать этого чортового слона!!!"
chatGPT: "@SORA, сделай им уже этого слона, с тенями и динамико листьев как положено, а то умом тронутся"
SORA: "АПАЖАЛСТА"

2024-03-19 08:55:03

Сидит такой эфыксер, собирает полторы тысячи нод в Худини, чтобы сделать разноцветный водопад. Хорошо так сидит, недели две. Подрендеривает периодически.
Потом в сердцах: "да как же сделать этот чортовый разноцветный водопад!!"
chatGPT: "@SORA, сделай ему уже этот водопадик, а то умом тронется"
SORA: "АПАЖАЛСТА"

2024-03-19 07:52:00

Ну, за массажистов.

Те, кто выпивал за художников, мудро наставляли - идите, васнецовы, в массажисты, их ИИ не заменит.
Да, но нет.
Тут вот тетенька сходила к ИИ на массаж и говорит: "никогда в жизни не пойду к кожаным, теперь только робаты".

В статье много аргументов, почему железный массажист лучше кожаного. Основной - ты полностью видишь и направляешь процесс. Там есть трехмерная карта твоего тела, ты можешь выбирать "сюда ходи и посильнее, а тут не трогай". С амбиционными кожаными это чревато скандалом.

Но меня зацепила не идея управляемости (кстати, я думаю, что скоро придумают более ловкие манипуляторы, чем кожаные пальцы, лучше подходящие именно для массажа). А идея обратной связи.

"В основе индивидуальности Aescape лежит интеграция искусственного интеллекта, позволяющая системе постоянно совершенствовать свое понимание человеческого тела и индивидуальных предпочтений. Мы генерируем более 1.1 миллиона точек 3D-данных для точного отображения положения тела на столе, определяя ключевые анатомические точки для целенаправленного массажа".

Во-первых ИИ может помнить каждого кожаного в лицо (точнее в тело) и строить картину "прогресса".
Во-вторых, он может учиться на парах "было-стало" и оптимизировать процесс.
В-третьих, снимать информацию с кожаной тушки можно не только с помощью "интеллекта пальцев", а используя разные сенсоры, которые не зависят от того, далеко ли до обеда массажисту.

Тут, конечно, напрашиваются аналогии с резиновыми женщинами и вибраторами, но может не стоит путать секс и массаж?

Остеопаты такие: так, минуточку, а что там за трехмерная карта?

https://mashable.com/article/aescape-ai-robot-massage

Метаверсище и ИИще страница 3. Показано 50 статей из 557