Метаверсище и ИИще - главная страница рубрики

2024-05-02 18:23:38

Тут Антропик наконец выкатил мобильное приложение для Клода.
Только iOS (мерзавцы).
Также анонсировали Team Plan - за 30 баксов доступ для пяти человек одновременно с общими чатами и обменом информацией внутри такой команды.
В приложении нет голосового ввода, это прям минус. Нельзя ехать в машине и вести с ним разговоры о судьбах мира.
Подробнее тут:
https://www.anthropic.com/news/team-plan-and-ios

2024-05-02 16:12:00

Сладкий 3Д-сток

Возможно кому-то пригодится, 1127 чистых, ИИ-немодифицированных 3Д-моделей с идеальной топологией и развертками. Может кто-то захочет потренировать свой ИИ на нормальных ассетах (маловато конечно), а не на месиве из Objaverse.
Это BaseMesh обновился, сменил хостинг и запилил новый движок.
Хорошая навигация, вьюер и категоризатор.
А мы продолжим за 3Д и ИИ в следующем посте, где будет сравнение восьми(!) image-to-3d нейронок на картинках, сгенерированных в DALL·E 3.

https://www.thebasemesh.com/model-library

2024-05-02 15:57:47

Огненная анимация с помощью weight scheduling, ControlNet и IPAdapter

Неделю назад отложил себе вот такой убойный ролик от Matt3o на запостить, но мой ИИ не дремлет, вчера притащил мне ютюбчик, где рассказано, как такие штуки делать (новостная гугл лента хорошо надрессирована годами).

Я долго рассматривал эту анимацию. Понимаю, что меня как-то крячит, глаз норм, а мозг орет, что что-то неправильно. В общем смотрите на ухо.
Но прогресс конечно потрясающий. Отрисовать поворачивающуюся голову в разных фазах - одно их самых сложный упражнений для кожаных художественных студентов. А ИИ учится очень быстро.

Там правда ацкий комбайн из ComfyUI и еще десяточки приблуд. Смотрите на свой страх и риск.

https://www.youtube.com/watch?v=jc65n-viEEU

2024-05-02 15:40:37

Ну, за комиксы!
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

Поначалу выглядит просто бомбоносно. Особенно видосики с медведём и тетенькой из Соры. Но если приглядеться, то количество пуговиц меняется, волосы перекрашиваются и всякатака мелочь вылезает.

Я уже побежал к большому бару, выпивать за аниматоров (медведь хорош), но остановился в маленькой рюмочной, чтобы накатить за комиксы. Ибо для комиксов вот эта вот консистентность уже вполне себе работает и можно генерить персонажей по референсам, которые будут сохранять похожесть. Поглядите примеры на сайте для комиксов, это круто. А с видео, как обычно, есть вопросы (и да, надо написать про VIDU).

Ну и как обычно бесит китайская непосредственность: не то, что кода или демо нет, нет даже статьи на архивчике. Есть просто сайтик с веселыми картинками. Ну и это команда Тиктокченко. От них кода не дождешься.
Смотрим примеры и ловим блох тут:
https://storydiffusion.github.io/
Думаем, как пристроить к раскадровкам.

2024-05-02 15:04:30

Web-Midjourney Alpha

Те, кто неистово генерят картинки в Midjourney начали получать доступ в Веб-интерфейс. Там не только генерилка, а будущая социальная сеть. И все эти адовые флаги в дискорде вынесены в рульки и педальки. А еще там есть Rooms для совместных генераций. ИИ оргии в общем.
Кто добрался до веб-версии, пишите свои ощущения в коменты. Сюда покидаю скринов (спасибо, Дима).

Интересно, что они упоролись по пальцам настолько, что иногда там проглядывают отпечатки пальцев на коже. Интересно их было бы их пошазамить пробить по базе. Вдруг найдется, наконец, этот ИИ-мерзавец, который заставляет нас постоянно выпивать за уходящие профессии.

2024-05-02 14:47:56

Unity 6 наперевес с ИИ в виде Sentis.

https://blog.unity.com/engine-platform/unity-6-preview-release

В шестерку напихали много чего, но нас ведь интересуют ИИ-фишки прежде всего.

Если вкратце, то теперь вы можете брать модели с Hugging Face, ужимать их и присовывать в свои проекты. Чтобы они крутились локально, могли взаимодействовать друг с другом, управлять персонажами, распознавать картинки и пр.

Я стал переводить и понял, что по английски звучит понятнее, вот держите:

The Unity 6 Preview ships with Unity Sentis, a neural engine for integrating AI models into the runtime. Sentis makes new AI-powered features possible, like object recognition, smart NPCs, graphics optimizations, and more.

We now support AI model weight quantization (FP16 or UINT8) in the Unity Editor if you want to reduce your model size by up to 75%. Model scheduling speed was also improved by 2x, along with reduced memory leaks and garbage collection. Lastly, we now support even more ONNX operators.

Now you can instantly find “grab and go” AI models for Unity Sentis from Hugging Face to ensure easy integration. We introduced a new Functional API that helps to build, edit, and chain AI models.

Ждем ответочки от Эпика.

И кстати, Mattew Bromberg, former EA and Zynga Executive назначен новым CEO Unity.
https://youtu.be/SExCOuTggCQ?t=1005

2024-05-02 14:20:43

GPT-4 - самая тупая модель, которую кому-либо из вас когда-либо придется использовать снова.

"GPT-4 is the dumbest model any of you will ever ever have to use again, by a lot."

Сама, два вопроса:

1. За что мы платим 20 баксов в месяц?
2. Где нетупая модель?

https://twitter.com/smokeawayyy/status/1785899419076112761

2024-04-30 15:09:59

Вышла llama-3-8b с контекстным окном в 1 миллион токенов.
И это можно запускать локально у себя на компе. Клод с своими 200К нервно закуривает в облаке.
Куда катится мир!
Посмотрите, пожалуйста, в следующем посте, что теперь можно вытворять с таким контекстом.
https://www.reddit.com/r/singularity/comments/1cgsmqt/you_can_use_llama3_8b_with_1_million_tokens/

2024-04-30 09:54:19

ИИ для хардкорных композеров.

Как обработать группу снимков одним щелчком мыши, как автоматически маскировать, отслеживать объекты, автоматически нажимать клавишу, автоматически применять удаление. Как применять различные модели машинного обучения и как создавать новые модели, адаптированные к вашему материалу.

Все это на русском с подробными объяснениями от Влада Ахтырского. В начале хороший ностальгический проброс в Ванкувер 2018, где мы с Владом отжигали на Сигграфе. До ковида, войны и вот этого вот всего.

Для тех, кто шарит за взрослый композ и знает, что такое деспил.

И да, это та самая кнопка "Сделать Всё" в виде системы Junior.
https://www.youtube.com/watch?v=YRktwxF6CPU

Ну, за джунов.

2024-04-29 18:04:47

Помните как год назад Уиилл Смиит ел спагетти?
Была также версия с пиццей, год назад.
А теперь оцените прогресс за год в ИИ-поедании пиццы (слева и справа).
Свежая версия подъехала на реддит:
https://www.reddit.com/r/aivideo/s/ACvEQqafVz

Прогресс, конечно, не как в картинках, а Сору нам только в мечтах показывают.

Где это сделано ищите по логотипу вверху справа. Смотреть со звуком. ИИмоции у него на лице - огонь, конечно.

Сора, выходи из внутреннего тестирования! Иначе наркоманские видео заполнят интернет и проникнут в датасеты.

Короче, подписчики предлагают измерять прогресс в ИИ-видео в вилсмитах. Год назад было 0.1, щас где-то 0.4 вилсмита.
Когда начнет пиццей в рот попадать с первого раза будет 0.8 вилсмитов.

2024-04-29 09:46:43

Учите программирование в любом возрасте.

Я тут порылся в сохраненном и неопубликованном и нашел ответ на вопрос из поста выше.
Похоже, что для того, чтобы было меньше таких заголовков из последнего поста, надо учить кожаных программированию (в любом возрасте).
Есть вот такая работа:

"Если LLM - волшебник, то код - волшебная палочка: Обзор того, как код позволяет большим языковым моделям служить в качестве интеллектуальных агентов"

Вывод такой: если замешивать в обучение не только "обычные" тексты, но и большое количество кода, то модель точно становится умнее и приобретает навыки критического мышления и декомпозиции задач. Последнее очень важно для медленного "размышления" в отличие от быстрых принятия решений.

Если подробнее, то включение кода в датасеты повышает навыки программирования у моделей, позволяя им писать код на нескольких(!) языках. Тут вроде банально, но с разными языками очень круто.

Структурные ответы: генерация контента с помощью жестко-структурированных данных, таких как HTML или таблицы. Тут тоже предсказуемо. Но глядя на то как некоторые кожаные мычат, пытаясь сформулировать простые мысли, хочется послать их на курсы бейсика.

Дальше интереснее, обученные на добавленном коде LLM демонстрируют навыки сложного рассуждения и тех самых chain of thoughts. Декомпозиция и размышление.

Авторы предполагают, что такие LLM легче превращаются в продвинутых интеллектуальных агентов, способных принимать решения и самостоятельно решать задачи.

Я понял, что написал какой-то рекламный проеспект курсов по программированию:

Учите программирование (сами и с детьми) и вы:
будете умнее
получите скилл критического мышления и сопоставления фактов
научитесь не мычать, а внятно излагать свои мысли
приобретете способность делать речерч в своей кожаной голове, а не только реагировать на тиктоки

И все это просто подмешав немного кода в вашу кожаную голову.

Маркетологи забирайте, дорого!

Сама работат вот тут:
https://openreview.net/pdf?id=8dmNOD9hbq

2024-04-29 08:19:22

Почему такие заголовки работают для одних доменов населения и не работают для других? Где и когда раздают критическое мышление? В семье или в школе?
Я давно так не смеялся, это очень смешно:

2024-04-28 20:28:50

Это скорее новость для многочисленных каналов-аггрегаторов ИИ-новостей:

Эппле выбирает, чей ИИ вонзить в свои телефоны: решения OpenAI или Google Gemini...
https://www.businessinsider.com/apple-negotiating-openai-google-gemini-ai-to-next-iphone-2024-4

2024-04-28 05:29:39

Для сравнения кину сюда эмоции и нейрорендеринг из Микрософтовской Вазы.
Да-да, это все ИИ-шная генерация кожаных лиц. На входе - одно фото или картинка из Midjourney/Stable Diffusion

Ну, за дикторов!

2024-04-28 05:24:40

Экспресс эмоции или эмоциональные экспрешены.

Synthesia обновила свой движок и теперь это Express-1 - самая главная фича в том, что эмоции и движения головы теперь не полагаются на заранее прошитые скрипты, а генерируются на основе анализа сентимента речи, на лету, так сказать.
ИИ анализирует эмоции во входном аудио или тексте и сам добавляет Станиславского в мимику и движения головы.
Ну и генерация голосов тоже на уровне.
Иногда аватары "показывают зубки", но это даже мило.
HeyGen немного занервничал, особенно после того, как Нвидия вонзила очень много денег в Synthesia.
После того, что показал Микрософт и Алибаба, понятно, что нейрорендеринг аватаров будет основным направление генерации реалистичных лиц. Ибо 3Д безнадежно застряло при переходе, через зловещую долину (это касается человеческих лиц) и пока не нашло выхода оттуда.

2024-04-28 05:09:29

360-панорамы в 8К! Вот это уже интересно!

Blockade Labs обновился, и с таким разрешением это уже готовое решение для всяческих лыжных масок.
А еще у них уже давно есть рисовалка в 3Д, карты глубины и HDRI, преобразование скайбокса в 3D-сетку, параметры стиля, а теперь еще обещают inpaint в 2.5D и редактирование сцены.
И поглядите сюда, если еще не видели.

Виарщеги, пишите, что думаете, выглядит нарядно.

https://www.blockadelabs.com/

2024-04-27 07:01:58

Чем живет российский ИИ-рисерч.

Держите большой материал с исследовательской группой Tinkoff Research. Больше всего мне нравится плотность подачи и то, что довольно сложные вещи здесь рассказаны очень понятным языком. Объяснения терминов, страшные аббревиатуры, актуальные направления исследований в области ИИ, обсуждение алгоритмов - все это очень живо растолковано на примере фитнеса и пылесосов. Очень доступно и в тоже время очень плотно и полезно.
Материала на пару вводных курсов. А на вставках - почти вся популярная ИИ-терминология. И написано молодыми учеными. которые прямо сейчас двигают ИИ-науку.
Я вынесу пару цитат для интриги, но всем рекомендую пройтись по статье, очень много полезного в плане расширения кругозора. Будет полезно абсолютно всем, кто интересуется рисерчём, особенно NLP, RL и рекомендательными системами.

«Понятие научной степени в области, которая несется и сметает все на своем пути, несколько устарело»
«Возможно, скоро мы забудем о существовании информационных пузырей и будем искать данные совсем иначе»
«Видеокарты не бесконечны»
«Чтобы не произошло восстание машин, нужен alignment»
«Революция в рекомендательных системах еще не случилась»

2024-04-27 04:34:46

Хмм. Snap создают этакий пузырь мнений. Точнее пузырь друзей.

LLM предлагают пользователям интуитивно понятные интерфейсы для работы с текстовой информацией. Интеграция зрения в LLM с помощью Video LM позволила этим моделям "видеть" и рассуждать о визуальном контенте. Однако эти VLM обладают общими знаниями, им не хватает индивидуальности. С помощью MyVLM мы наделили эти модели способностью воспринимать специфические для пользователя концепции, подстраивая модель специально под вас. MyVLM позволяет пользователям получать персонализированные ответы, в которых результаты больше не являются общими, а сосредоточены на передаче информации о целевом объекте пользователю.

Меня просто смущает "больше не являются общими"...

Хотя речь вроде идет о том, что ИИ теперь распознает не "Трое в лодке не считая собаки", а "Вася, Пафнутий и ты посередине с Тузиком наперевес". То есть, грубо говоря, отмечает субъекты и объекты на фото.

Непонятно, что с приватностью в таком случае.

Поглядите тут, там много понятных картинок.
https://snap-research.github.io/MyVLM/

2024-04-27 03:02:46

А вот тут видео разбор бекстейджа AIR HEAD, смотреть обязательно:
https://youtu.be/KFzXwBZgB88

2024-04-27 03:01:46

SORA Air Head. Подробности изготовления ролика.
Майк Сеймур сделал шикарный материал в лучший традициях своего FX Guide. Разбор ролика от shy kids и SORA.

Помните этот бомбический ролик, который всем взорвал мозг (срочно пересматривать):
https://youtu.be/9oryIMNVtto

Держите подробности:

shy kids - или как их называют "«Панк-рок Pixar» - студия из Торонто, которая часто делает ролики про подростковый возраст, социальную тревогу и проблемы современной жизни.

Технические подробности про SORA:

Пока ничего, кроме текстового промпта (который под капотом раскучерявливается с помощью GPT-4) ничего нет. Никакого дополнительного контроля. Только супер-подробный промпт.
Похоже, нет даже сида. Каждый раз по разному.
Иногда, когда команда запрашивала желтый шар, он оказывался совсем синим. В других случаях в нем появлялось лицо, или лицо было нарисованным на передней части шара. И постоянно появлялись нитки от шарика. Вроде ничего не удалялось на посте (да, но нет, см ниже) - все шоты брались напрямую из SORA, но было много грейдинга(цветокора), обработки и, конечно, увеличения разрешения. Ибо SORA хоть и умеет в 1080, но это занимает конски много времени.
Вся генерация шла в 480, а потом разгонялась в Топазе.

В SORA есть inpainting "по времени", расширенный GPT промпт отображается поверх таймлайна и можно пытаться вносить изменения в конкретные моменты времени в куски промпта, но это не всегда предсказуемо.

SORA пытается всегда центрировать объект в кадре, поэтому панорамки - ручками с дорисовкой.

В кино термины "слежения", "панорамирования", "наклона" или "наведения" не являются понятиями, зашитыми в метаданных и датасетах (в отличие от параметров объектива, которые любят использовать в картинках). "Девять разных людей будут иметь девять разных представлений о том, как описать кадр на съемочной площадке и в OpenAI, не думали как кинематографисты, поэтому интерпретация углов камеры была как бы случайной".

Вы можете ввести "Camera Pan", и вы получите его в шести случаях из десяти. И это общая проблема видеогенераторов.

Клипы можно рендерить, например, по 3 секунды, 5 секунд, 10 секунд, 20 секунд, вплоть до минуты. Время рендеринга зависит от времени суток и потребности в использовании облака. Как правило, на рендеринг уходит от 10 до 20 минут причем мало зависит от длины клипа(!).

Пост и ротоскоп все-таки был!!
Так как Сора постоянно рисовала всякие морды на воздушном шаре, его приходилось ротоскопить и затирать их в Афтере. По пути контролируя цвет шара.

Соотношение сгенерированного материала к финальному (по времени) - примерно 300 к одному. Обычно это 10 к 1 для сферической обычной съемки.

Кстати, SORA тоже грешит тягой к сломо, как и все видеогенераторы. Очень часто клипы выглядели замедленными.

Нельзя поминать режиссеров или операторов в промпте. Жоская цензура. Попросите исторический Hitchcock Zoom - получите отказ.

Ну и самая главная цифра - 2 недели и команда из 3 человек. Сравнивайте сами.

По ссылке много исходных кадров до и после и остальных деталей:

https://www.fxguide.com/fxfeatured/actually-using-sora/

2024-04-27 02:02:46

Стерео на стероидах.
Досмотрел Сёгун. Снято нарядно, гламурно даже. Только главный герой (англичашка) очень бесит. Не попадает ни в образ, который я успел нарисовать, начав читать книгу, ни в общую картинку. Двигается странно, шевелит лицом, как в комиксе, в общем кастинг очень странный. Остальные прекрасны, особенно женщины и Ябушиге, хотя история больше про "давайте сделаем красиво".

Но поглядите, что творят Нерфы. Теперь после просмотра кино, у вас может быть за пазухой весь трехмерный мир фильма. Movie World Model. Можете там побыть, не присутствуя на съемках, полетав любыми ракурсами. Стерео на стероидах. Дебагинг кино наизнанку.
А все Люма Лабс животворящий. Я уже писал про эти трюки с разными фильмами, но тут уж больно актуально и по свежим следам.
Заканчиваете смотреть сериал и жмете кнопку "Запустить симуляцию мира", чтобы еще немного в нем побыть, посмаковать. Netflix, давай апдейт своего приложения!
https://lumalabs.ai/capture/1e165e10-eeeb-457b-a1f7-c7225ac1a8c1

2024-04-26 14:02:53

МТС Платформа 2024 — открытая конференция о новых цифровых решениях.

15 мая в «МТС Live Холл» в Москве компания покажет уникальные продукты и новые сервисы МТС. Спикеры конференции расскажут о технологических прорывах в индустрии развлечений, кибер-безопасности и комфорта пользователей, о новых форматах общения, уникальной видеоплатформе и о трендовом контенте социальных сетях.

Среди топовых спикеров:

• Вячеслав Николаев, президент МТС
• Максим Лаптев, директор по цифровым продуктам МТС
• Евгений Черешнев, вице-президент по стратегии и инновациям
• Инесса Галактионова, первый вице-президент по телекоммуникационному бизнесу, член правления
• Елена Бальмонт, генеральный директор МТС Медиа
• Наталья Братчикова, руководитель блока по развитию соцмедиа

Мероприятие пройдет в онлайн и оффлайн формате. Регистрироваться здесь

2024-04-26 06:16:11

Держите еще один апскейлер:
https://clarityai.cc/

В отличие от супер-дорогого Магнифика, автор честно пишет:
Если вы не знакомы с cog, a1111 и не хотите использовать Replicate, вы можете использовать мою платную версию на ClarityAI.cc
А если знакомы - раскатывайте код у себя и пользуйтесь на здоровье.
Поглядите, может вам зайдет. Мне хватает того, который в Фокусе встроен.
Ну и покидайте в коменты еще ИИ-апскейлеров, соберем, сделаю пост.
Вот еще один, может пачками апскейлить.
https://www.upscayl.org/

2024-04-26 05:51:25

Вот вам еще очень странный 3Д-ИИ.

На входе картинка с животным. На выходе 3Д-модель этого животного и даже скелет.
Работает только с фауной (и похоже переобучен на их датасет).

Я сгенерил волчару с лапищами в Идеограм и присунул ему на вход.
Получил скорее котяру, чем волчару.
Из ИИ-кожаных, он, как правило, делает овечек, я проверял.
Видать что-то знает.
https://huggingface.co/spaces/Kyle-Liz/3DFauna_demo

Но вы можете потренироваться на котиках

2024-04-26 05:33:53

Ну, за экстремальных композеров!

Сорри, еще один экстремальный пример из Симулона.

Коль скоро он использует гироскопы телефона для трекания камеры, то можно делать просто иезуитские движения камерой, за которые любой композер вас задушит без сожаления. А Симулончик сохраняет при этом стабильный трек.
А теперь смотрим и думаем, сколько бы вы это делали в нюке или афтере?

Самолетик - 3дшный, остальное - съемка на телефон.

И поглядите примеры тут:
https://twitter.com/Simulon

2024-04-26 05:26:39

Ну, за композеров!

Продолжаем ИИ-композ и 3Д марафон.
Давно хотел написать про Simulon.

Это совершенно огненный софт для вкомпаживания 3Д в реальное видео.
В твитторах полно примеров с котиками и столиками, а вот держите кое-что посложнее - тачки с HDRI!
Я даже хотел, как обычно, запостить как "рендер или видео", уж больно хорошо.

Внимание, если у вас есть модель точилы, то вкомпоз этого порша (на всей этой трясущейся телефонной камере занимает минуты. Никаких пфтреков, бужу, нюков и прочей бесовщины.
A 15 second video like this takes about 3 minutes to cloud render.

Читаем, как у народа разносит мозг в коментах к поршу:
https://twitter.com/diveshnaidoo/status/1781018755331498339

Порша забираем вот тут:
https://sketchfab.com/3d-models/free-1975-porsche-911-930-turbo-8568d9d14a994b9cae59499f0dbed21e

Записываемся в бету тут:
https://simulon.typeform.com/betatest

2024-04-26 05:05:35

Ну, за левел-дизайнеров и пропс-инженеров.

Помянул Юнити и вспомнил, что забыл написать про Holodeck - они тут подались на CVPR 2024 и обновили код на Гитхабе.
Это генератор 3Д-сцен из текста. Чем-то напоминает Прометей от Андрея Максимова.

Holodeck может генерировать различные сцены, например, игровые автоматы, спа-салоны и музеи, корректировать дизайн в зависимости от стиля и улавливать семантику сложных запросов, таких как "квартира для научного сотрудника с кошкой" и "офис профессора, который является поклонником "Звездных войн".

Он не генерирует сами объекты, он их тащит из датасета Objaverse:
Holodeck использует GPT-4 для получения знаний о том, как может выглядеть сцена, и использует 3D-ассеты из Objaverse для наполнения сцены разнообразными объектами.

Это скорее расставлятор 3Д-ассетов по текстовому запросу.

Его также используют для обучение агентов навигации в новых сценах без использования разметки и данных, созданных человеком. Источник синтетики без необходимости наруливать миры в Юнити.

Код есть, но там все из палок и Юнити.

А я увидел в сети новый термин - "Синтиверс". Это когда ваши виар-мирки или игровые локации генерируются под запрос в реальном времени. Подумал о чем-то - хоп, твой мир перед тобой.

2024-04-26 04:39:10

Пока LLM дают передохнуть, вернемся к графике и пошепчемся за ИИ-композ и 3Д.

Увидел вот такой ролик и полез посмотреть на 3daistudio (в ролике набросок концепта, нейрорендер в креа, а потом конвертация картинки в 3Д).

Еще один 3Д-генератор. Сделан ловко, но за каждый чих просит денег.
Нынешняя ситуация 3Д напоминает мне лихорадку с картинками полтора года назад, когда все срочно поднимали сервак-другой в сети, давали веб-морду к Stable Diffusion и просили кредитов, денег, подписок за генерацию картинок.
С 3Д немного сложнее сделать веб-морду - тут надо вьюпортик вонзить, сделать экпорт в fbx(конечно, платный), рульки для света и пр.
Но кода на гитхабе уже полно вкупе с бумагами, поэтому 3Д-генераторов за кредиты будет все больше.
У 3daistudio есть даже плагин для Блендора - поэтому я жду, что рано или поздно 3Д-генерация просто появится в Блендоре из коробки.
Равно как и в Юнити и UE.
https://3daistudio.com/BlenderAddon

2024-04-25 14:02:53

Adobe добавляет AI в видеоредактор, в Китае создали водомёт с AI.

А инвестиционная управляющая компания

❤️ «Альфа-Капитал» поставила перед собой амбициозную цель — стать одним из лидеров в России по внедрению и использованию AI и созданию новых стандартов в отечественной финансовой отрасли.

😸 Но, перед этим неплохо было бы разобраться с одним практическим, очень важным вопросом:

выяснить, кто лучше шутит

– AI или носители «естественного интеллекта», из числа инвестиционных консультантов компании.

🔘

О результатах и о том, зачем конкретному сотруднику компании может потребоваться Chat GPT читайте здесь.
#промо
Erid: 2VtzquWmMRz
Реклама. ООО УК "Альфа-Капитал", ИНН 7728142469

2024-04-25 11:42:32

Как бы не упирались новые модели, текст все равно генерится криво. Шрифтовой дизайн - это не пустое слово.
Ну и мне видится вот такой пайплайн - сидишь в Фотошопе и говоришь: ИИ, найди мне конкретную надпись или, например, номера на машине. И замени их на нормальные шрифты, текст без ошибок и воще сделай как в Фотошопе.
ИИ, такой, алехко - поставь Concept Art plugin

Поглядите, что люди замыслили:
https://twitter.com/cantrell/status/1782879174497362411/

2024-04-25 11:32:52

Вот поглядите на забавное видео, где стиль вытаскивает картинку и историю.

Концепты и визуалы: Midjourney и Stable Diffusion.
Аnimatediff для взрыва мозга.
Runway для липсинка(!) - очень неплохо.
Voice to voice in eleven labs
After Effects для полировки - куда ж без него.

В общем, одной кнопкой пока не получится. Нужен мозг(пока) и некривые руки. И АЕ.

2024-04-25 11:25:42

После выводка ИИ генераторов 3Д, поглядите, как это делает Vizcom.
Пример нормального UI/UX. Слои, история и пр.

У них там мощный апдейт 2Д Студио, поглядите вот тут:
https://youtu.be/qYax7QPVZVw

2024-04-25 11:12:09

Новая базовая модель (то есть не клон Ламы или Мистраля) от Snowflake по названием Arctic (Снежинка выпускает Арктику).

Говорят, что довольно вольная, с минимальной цензурой, компактная и даже опер-сорсная, веса обещают.
https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/

Для гиков: Arctic использует гибридную архитектуру Dense-MoE (на картинке), применяя Top-2 gating со 128 экспертами, чтобы найти баланс между повышением качества и эффективностью системы.

Более того, уже можно попробовать самим тут:
https://arctic.streamlit.app/

Умеет в русский (не знаю пока насколько хорошо)
Для гиков есть вот такой разбор:
https://medium.com/snowflake/snowflake-arctic-cookbook-series-exploring-mixture-of-experts-moe-c7d6b8f14d16

Что-то ураган новых базовых моделей (phi-3 от Микрософта, китайский Qwen) несется над планетой. Скоро их начнут ужимать и присовывать в телефоны. И будет нам ИИ нашептывать колыбельные...

LLM: новая модель каждый день! Все круче и круче! За углом Llama 400+
Картинки: Скоро будет Stable Diffusion 3, Эмада прогнали из Стабилити, Уволили 10% разрабов, наверное скоро будет Stable Diffusion 3 но это неточно, есть SD3 API но за конские деньги, Midjourney молчит, DALL·E 3 не обновлялся с прошлого года, Stable Diffusion 3 обещали два месяца назад.

Пойду посмотрю, что с картинками.

2024-04-25 10:47:03

Сравниваем быструю красоту сами!

Держите сравниватор для ускоренных моделей. Генерация ЗА ОДИН ШАГ!

Похоже, что Hyper-SD действительно всех делает.
Я также погонял на NSFW - там Турбо сразу сдулся, у него датасет порезанный, а вот Hyper-SD снова молодец. В коментах примерчик.
Ну и это реально быстро!
Подумайте, три картинки генерятся за секунду.
А будет еще хуже\лучше!
https://huggingface.co/spaces/multimodalart/one-step-comparison

2024-04-25 10:40:05

Сравниваем быструю красоту!

Тут вот Тиктокченко недавно бахнул быструю версию Stable Diffusion под названием Hyper-SD.
https://hyper-sd.github.io/
Еще одна дистиллированная (ускоренно-пожатая) модель, которая по словам авторов бьет SDXL-Lightning.

А если вы уже слегка охренели от всех этих SDXL Turbo, SDXL-Lightning и Hyper-SD, то в следующем посте дам вам экскаватор-сравниватор именно для скоростных моделей, которые генерят картинку с малым количество шагов, почти в реалтайме. Сможете сами попробовать.

2024-04-25 10:10:55

К посту выше

2024-04-25 09:46:21

А вот у Метачки с очками все идет неплохо.

Мало того, что теперь вы можете расшаривать свой "обзор" с собеседниками (я когда-то писал, что мы теперь можем видеть мир глазами других людей и это эдакое коллективное зрение, к которому наши мозги не готовы).
Теперь они раскатали в апдейт очков мультимодальный ИИ. Вы можете спрашивать его голосом, показывать ему картинки или просто окружающий мир и общаться с ним на эту тему.

От встроенного аудио и сверхширокоугольной 12-Мп камеры до интеллектуального помощника - вы просто говорите "Эй, Мета" и ну общацца с ИИ.

"Допустим, вы путешествуете и пытаетесь прочитать меню на французском языке. Ваши умные очки могут использовать встроенную камеру и Meta AI для перевода текста, предоставляя вам необходимую информацию без необходимости доставать телефон или смотреть на экран."

Подробнее тут:
https://about.fb.com/news/2024/04/new-ray-ban-meta-smart-glasses-styles-and-meta-ai-updates/

И похоже, что Марк делает очень правильные продуктовые ходы.
Просто представьте, что в вотсапе теперь можно через @ позвать @Meta.ai и затем спросить, что угодно или сгенерить картинку, анимировать ея. И все это не выходя из привычного мессенджера (инста, вотсап, фбмессенджер). Не надо лазить в браузер, копипастить, шарить и пр.
А коль скоро аудитория метачки это около 4 миллиардов(!) юзеров, и они получают свой ИИ просто за свой логин, то это просто убийственный ход с точки зрения юзер аквизишен.

А тут еще Марк вознамерился сделать из своей метаверс-операционки Horizon открытую систему для различных производителей VR-железа (Цукерберг упомянул Microsoft, Lenovo, Asus)
Этакий VR-Андроид.
https://www.cnbc.com/2024/04/22/mark-zuckerberg-says-meta-will-offer-its-virtual-reality-os-to-hardware-companies.html

Вкупе с открытостью Лламы и доступностью метачкиного ИИ для половины населения планеты это делает Метачку новым Микрософтом.

В интересное время живем. Социальные сети становятся операционками на стероидах ИИ.

2024-04-25 08:17:32

Сорян, но я снова про лыжную маску.

Тут вот пару месяцев назад все обсуждали объемы производства масочек. Те, у кого не хватило денег на покупку, тешили себя надеждой, что будет (когда-то в сферическом будущем) дешевая версия, те у кого хватило - признались, что девайс пустой и что с ним делать(кроме как смотреть кино) - непонятно. А я писал, что без киллер-фичи - не взлетит.

Нуштош.

Apple, сокращает производство гарнитуры Vision Pro ПОЧТИ ВДВОЕ и отменяет обновленную гарнитуру, поскольку продажи в США падают.

Читаю статьи и вижу, что правду ведь писал про killer-фичу и про масс-маркет: "Apple еще не представила действительно стоящего приложения для гарнитуры."

"It was never going to be a mass market device."

https://www.pcgamer.com/hardware/vr-hardware/apple-reportedly-slashes-vision-pro-headset-production-and-cancels-updated-headset-as-sales-tank-in-the-us/

https://www.business-standard.com/technology/tech-news/apple-slashes-vision-pro-shipment-estimates-amid-plummeting-demand-124042400632_1.html

https://www.ign.com/articles/apple-reportedly-slashes-apple-vision-pro-shipments-due-to-unexpectedly-low-demand

2024-04-24 13:01:42

Лекция "Погружение в 3D CV"

Если вы тоже стали чаще замечать термины, задачи и инструменты из мира 3D, вам интересно узнать, что они значат и что происходит в индустрии, приходите на открытую лекцию "Погружение в 3D CV".

На лекции вы узнаете:
- какие задачи решают в 3D
- почему таких задач становится больше
- с чего начать погружение в эту область
- почему CV-инженеру важно знакомиться с 3D
- что такое SLAM, SfM, SMPL, NeRF, 3D Gaussian Splatting и другие баззворды🐝

А также мы представим программу курса "3D Computer Vision" и подарим скидки участникам🎁

📌 Лекция пройдет в четверг, 25 апреля, 18:00 МСК

💡 Всем, кто зарегистрируется на встречу, мы отправим miro-схему с описанием направлений и инструментов в 3D — поможет быстро сориентироваться и погрузиться.

Регистрируйтесь по ссылке!
#промо

2024-04-24 12:13:31

Помните, как я распинался про измерение красоты?
Умные люди запили, наконец, слепые тесты.
Есть такой сайт, ChatBotArena, там люди общаются с разными LLM вслепую и просто выбирают те ответы, которые им понравились. Не зная, какая ЛЛМ ответила.
Получается коллективно-сознательный тест.
Так вот, теперь такое же сделали для картинок, можете самом попробовать.
Смотрите на промпт, и выбираете, какая картинка ему лучше соответствует.
Только хардкор и вкусовщина!

Предсказуемо Midjourney на первом месте.
Пока.
Остальное смотрите на сайте:
https://artificialanalysis.ai/text-to-image/arena

Тестировались только базовые модели, никаких чекпойнтов с цивитай:

Models compared: DALLE 3, DALLE 2, DALLE 3 HD, Stable Diffusion 3, Playground v2.5, Stable Diffusion 1.6, Stable Diffusion 2.1, Stable Diffusion 3 Turbo, Midjourney v6, SDXL-Lightning (4-Step), Stable Diffusion XL 1.0 (SDXL)

Number of inference steps: for open source models with inference/DDIM step setting, creator defaults preferred. Stable Diffusion XL 1.0 (SDXL): 30. SDXL-Lightning (4-Step): 4. Stable Diffusion 1.6: 50. Stable Diffusion 2.1: 50. Playground v2.5: 50.

2024-04-24 11:03:00

В покере есть такое понятие - полублеф. Это когда ты ставишь имея на руках дро или перспективу.
Похоже пора вводить понятие полудипфейк.

Это когда на картинке вроде как узнаваемый человек, но как бы в перспективе, если он, например, похудеет или займется спортом.

Одна из австрийских политических партий использует искусственный интеллект для создания «мужественных» фотографий своего кандидата, второе изображение - то, как он выглядит на самом деле.

Если раньше у нас была бьютификация в фотошопе, то теперь бьютификация происходит в мозгах ИИ. Просто говоришь ему, сделать так, чтобы кожаным понравилось. Он делает. Дальше вопрос чувства меры.

2024-04-24 08:48:18

ИИ-регуляции в действии.
Но есть вопросы.

Преступнику, осужденному за создание более 1000 непристойных изображений детей, запретили использовать любые «инструменты искусственного интеллекта» в течение следующих пяти лет в рамках первого известного дела такого рода.

Народ на реддите уже отжигает с аналогиями:

«Мужчина арестован после того, как нарисовал более 1000 изображений несовершеннолетних детей. Ему пожизненно запретили использовать Photoshop».

https://www.reddit.com/r/StableDiffusion/comments/1c9dnof/sex_offender_banned_from_using_ai_tools_in/

У таких приговоров конечно больше вопросов, чем ответов.

Ну и мне не нравится прецедент тем, что массовый читатель газет получит еще один шаблон типа "а, ИИ-картики, это ж сплошное порно и педофилия", по аналогии с "а, крипта, это для покупки наркотиков".

Но больше всего, конечно, интересно, как они будут отслеживать трогал он ИИ или не трогал после вынесения приговора.

2024-04-24 08:27:07

Ну, за дизайнеров.

Тут Тик-Ток выкатил работу под названием ГРАФИСТ.

Графист берет на вход некоторое количество графических элементов (просто картинки с альфой, RGBA), понимает, что они из себя представляют и делает макет. Расставляет элементы красиво с точки зрения графического дизайна.
То есть ИИ берет на себя композицию, по пути понимая, что за контент вы ему скормили.
На входе пачка RGBA файлов, на выходе JSON, описывающий слои и расположение элементов.

Из интересного: под капотом китайская LLM Qwen1.5-0.5B/7B, причем есть две версии Графиста: Graphist-Tiny на Qwen1.5-0.5B и
Graphist-Base на Qwen1.5-7B.

Читая статью узнал вот про такой датасет-сток:
https://create.vista.com/ - может кому-то пригодится.

На итоге они взяли волонтеров, которые в их веб-демо(которого нет) нагенерили картинок. Которые они прогнали через CPT-4 Eval и получили, предсказуемо, что Графист всех уделал.

Кода нет, демо нет, есть гитхаб с картинками и статья, любопытная притом.

https://github.com/graphic-design-ai/graphist

2024-04-23 13:02:53

Внимание айтишников! Вы можете принять участие в отборе статей к публикации в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления».

Автор самой лучшей работы получит денежное вознаграждение — 1 млн рублей.

Причем издание выйдет и на англоязычной версии журнала под названием Doklady Mathematics, а также будет представлено в рамках ведущей международной конференции по ИИ — AI Journey. А это значит, что все статьи будут рассматривать реальные эксперты. Поэтому ваши таланты и знания оценят по достоинству.

Не упустите такую возможность — заявку можно подать до 20 августа. Не забудьте прочитать все правила оформления статьи на сайте.

2024-04-23 11:36:46

Хмм. Ведение социальных сетей с помощью GenAI.
Доклад на Adobe Max 2024.
Вы находитесь здесь.

2024-04-23 11:22:57

Принес вам забавную архитектурную ИИ-рисовалку.
Этакая nano-krea, сделанная одним человеком на коленке и питонге. Заточенная как бы под архитектурку (хотя там просто Дримшейпер модель с возможностью замены).
Полный опенсорс, несложная установка, можете сами попробовать.
Прикольная фишка - в качестве входного изображения, можно подать ему на вход захват области экрана, например окна Иллюстратора, где можно рисовать сплайнами. Справа будет ИИ-подрендер вьюпорта Иллюстратора.
Поглядите примерчики, забавно.
https://github.com/s-du/ScribbleArchitect?tab=readme-ov-file

2024-04-23 11:10:18

Адобченко начинает жечь в преддверии Adobe Max.

Поглядите, как должен выглядеть интерфейс для работы с ИИ-картинками.
IP-Adapter и Style Reference, Firefly 3 и многое другое от Адобченко. Ждем к вечеру еще новостей.

2024-04-23 10:50:29

Я уже писал про SORA-клипы от Пола Трилло.

Похоже SORA становится просто инструментом - TED заказал Полу клип для продвижения нового сезона выступлений TED, который будет посвящен искусственному интеллекту и изучению того, что TED будет освещать через 40 лет.

Клип эмулирует полет FPV-дрона: похоже скил пилотирования дронов теперь конвертируется в скил пилотирования Сорой.

Из интересных утечек:

Трилло рассказал о промптах, которые он использует, в том числе о «коктейле слов, который я использую, чтобы сделать это не похожим на видеоигру, а на что-то более кинематографическое». Очевидно, они включают в себя такие подсказки, как «35 миллиметров», «анаморфотный объектив» и «виньетка объектива с глубиной резкости», которые необходимы, иначе Сора «по умолчанию будет использовать этот очень цифровой результат».

Всего он нагенерил 330 клипов в Соре, отобрал 25, а дальше - старый добрый кожаный монтаж.

И да, лого Тэда - тоже кожаное, приделанное на посте.

https://www.techradar.com/computing/artificial-intelligence/openais-new-sora-video-is-an-fpv-drone-ride-through-the-strangest-ted-talk-youve-ever-seen-and-i-need-to-lie-down

2024-04-23 10:10:25

Боятся ли VFX-специалисты прогресса нейросетей?

Вчера пока сражался с Нейро на Кинопоиске обнаружил вот такую статью. И там ВСЕ знакомые лица. Причем знакомые по 10-20 лет.

Самый пессимист, конечно Даня: «Кто говорит, что AI — это просто инструмент, давайте дружить! Вместе будем разносить еду в кафе и мыть посуду». Скорее всего, нам всем придется менять профессию, но не в смысле «делать то же самое, но как-то на новый лад», а вообще заниматься чем-то другим.

Гоша - оптимист: Почему покрутить промпт хуже, чем покрутить ручками проект? Непонятно.

Саня - выше суеты: Если говорить о нейросетях в CG-индустрии, то я не вижу проблемы, с которой надо бороться.

CGF действительно внедряли ML, когда я еще ИИ-глупости в фб писал (и до сих пор пишу тут).

В общем все по Гауссу, от негатива до позитива с мейнстримом посередине.

Но меня цепанула сентенция Дани про профсоюз. И тут я с ним согласен:
Права CGI-специалистов никак не защищены по сравнению с представителями других творческих профессий. Наличие профсоюзов у актеров и сценаристов — это следствие реалий времени% они сформировались в 20–30-х годах прошлого века, когда в обществе был глобальный тренд на создание профсоюзов в больших секторах профессий, и творческие специальности проехали туда прицепом. Постпродакшен опоздал на эту вечеринку примерно на 60 лет, к тому же пост гораздо легче аутсорсить в места с более дешевым трудом и меньшим количеством разговоров о правах. Я не очень верю в шансы создания глобального профсоюза CG-индустрии в обозримом будущем. Все проблемы, что мы видим в индустрии сейчас, будут только усугубляться. Чем это закончится, я не берусь предсказать.

https://www.kinopoisk.ru/media/article/4009359/

2024-04-23 09:54:06

Видеогигаган 8Х.

Топаз нервно закуривает овальные сигареты.
Адобченко показал Видеогигаган - свой 8Х апскейлер для видео.
https://videogigagan.github.io/ (очень много примеров)
VideoGigaGAN базируется на апскейлере изображений - GigaGAN. Простое раздувание GigaGAN до видеомодели путем добавления временных модулей приводит к сильному временному мерцанию. В отличие от предыдущих методов, VideoGigaGAN генерирует темпорально согласованные видео с более тонкими деталями.

И мой пойнт, как обычно, в том, что это будет встроено в текущую экосистему и пайплайны. Не надо брать видео, ходить с ним куда-то в нейродебри, приносить обратно. Все в одном месте.

Кода и демо нет, но я ожидаю демо и еще очень много чего на грядущем Adobe MAX, который вот-вот начнется - можно смотреть тут:
https://www.youtube.com/watch?v=NA0hFqIHfro

Может и про интеграцию с SORA расскажут подробнее...