Метаверсище и ИИще

2024-03-18 17:11:38

Адобченко не унимается и тизерит все новые продукты.
Мы ждем обновы Firefly, но пока видим лишь интеграцию этой модели в разные продукты Адобченко, что в общем-то правильно.

Две новых фишки для Substance 3D Sampler 4.4 и Stager 3.0 соответственно.

Первая, это генерация текстур из текста. Это уже делает Юнити, плюс я писал про похожие проекты. Но все это идеально интегрировано в Substance.

Вторая, это генерация фонов для Stager. Задников в общем. Чем это отличается от просто генерации картинок по промпту?
Сгенерированные задники матчатся по свету с остальной трехмерной сценой, информация забирается оттуда.

В общем Адобченко молодцы, но давайте уже свой видеогенератор!

https://news.adobe.com/news/news-details/2024/Adobe-Brings-Firefly-Generative-AI-Into-Substance-3D-Workflows/default.aspx

2024-03-17 14:37:10

Про Мешкапад писал очень давно. Они тогда пытались делать из фотки фуллбоди аватара.
Вчера твиттор принес вот такое - они прокачались до создания персонажей по фоткам, сканам и даже видео.
А также накопили библиотеку мокапов (и да, ноги не скользят).
И даже анонсировали анимацию из текста.
Поглядите на meshcapade.me
Прям комбайн.
Кто-то уже поюзал?

2024-03-15 12:51:52

Ну как так?
Я ерзаю на стуле и с нетерпением жду выхода(точнее выхода в цифре, в прокате уже пошел) Кунг Фу Панда 4 (это мой любимый мультфильм всех времен и народов, писал про хит-парад тут).
А Дримворкс берет и выгоняет половину народа на улицу.
В принципе я насмотрелся на подобное в прошлой жизни - студия заканчивает крупный проект, следующий еще недостаточно внахлест, поэтому все, кто заканчивал проект не нужны, их просто выгоняют дo следующего проекта, точнее той фазы, когда они понадобятся. Но это больше относилось к кино, с его непредсказуемыми сроками и загруженностью. Но Дримворкс-то мог себе позволить запускать проекты параллельно. Фу такими быть.
Или это происки ИИ?
https://twitter.com/americanwombat/status/1768079631025090878

2024-03-15 12:36:05

Ну и для симметрии запощу релиз продукта от Rask.ai.
У них, в отличие от Адобченко, все уже работает, включая липсинк, перевод, генерацию субтитров, автонарезки, в общем полный фарш для перевода видосов.

2024-03-15 12:33:43

Ого, ого.
Адобченко тоже вламывается на поляну нейро-дублирования и липсинка видосов с одного языка на другой.
Тот случай, когда большие мальчики смотрят в песочницу, где стартапы играют в свои проекты, наблюдают за удачными кейсами и либо покупают счастливчиков, либо просто копируют функционал, заливая его деньгами.
Стартапы колются, плачут, но продолжают играть в песочнице со слонами. Смотрите мой вчерашний пост про VLOGGER от Гугл.
Eleven Labs задумчиво чешет в затылке (у них нет липсинка, только дубляж). А ребята из Rask.ai просто троллят адобченко в их же Твитторе - Finally guys @adobe, welcome to the race (which we've been in for a year), и шутят про сроки выхода Адобовских продуктов. Узнаю стиль Маши))

2024-03-15 12:30:36

Тут Поликам выкатил новый апдейт.
Для тех кто танке - это такое приложение, которое использует лидар из ваших телефончиков и сканирует объекты вокруг, чтобы выдать вам как бы трехмерную модель. Если нет лидарчика, можно просто нафоткать и Поликам сделает фотограмметрию.

За пределами новостей остался тот факт, что они сделали поддержку Гауссианов. Причем с возможностью их редактирования. И открыли для всех.

Поглядите и сами попробуйте тут:
https://poly.cam/tools/gaussian-splatting

Но не ждите чуда. Из всех этих 3Д-сканеров выходят сетки, похожие на кашу, которая получается у всех картинка-to-3D генераторов.

Ее надо будет чистить, ретопить и т.д.

Ну и надо поразмышлять, когда Гауссианы и Нерфы вытеснят олдскульные полигоны из традиционных пайплайнов.

Думаю никогда, но появятся новые ниши для их использования.

2024-03-15 12:03:44

(Naked girl:1.8) - мне понравилась шутка с Реддита.
Кто много работал в Stable Diffusion и знает про управление весами отдельных частей промпта, тот поймет.

2024-03-15 09:58:32

Эппле очень медленно запрягает в области ИИ.
Но, надеюсь, выстрелят мощно в июне.

Apple приобрела DarwinAI, который создает системы искусственного интеллекта, которые визуально проверяют компоненты любого производства, но, как отмечает Bloomberg, стартап также работает над тем, чтобы "сделать модели нейронных сетей меньше и быстрее".
Эта явно полезно дляApple, которая работает над оптимизацией больших языковых моделей для телефонов.

Все сотрудники переходят в Apple AI Division

https://www.reuters.com/markets/deals/apple-buys-startup-darwinai-adds-staff-its-ai-division-bloomberg-reports-2024-03-14/

2024-03-14 12:14:29

Реально, это уже не просто говорящие головы. И это не любимый трюк цифровых инфлюенсеров - пришпандорить цифровое личико к реальной фоточке или видосику, выдавая за общий план.
Это генерация с нуля вот этого вот всего.
Если мысленно навалить сюда качество СОРА, то можно точно гнать с работы всех этих дикторов, ведущих, умных онолитегов, вещающих по суфлеру за курс биткойна. И за вот этих вот ... новостников.

Качество-то мы допилим.. Но кто ж нам даст в руки такой инструмент. Точно не гугл.

https://enriccorona.github.io/vlogger/

2024-03-14 12:06:32

VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

А вот это уже интересно.
И тут как раз тот случай, когда большие мальчики типа Гугла, насмотревшись на игры стартапчиков типа HeyGen или D-ID, решают выйти поиграть в песочницу. Со своим совочком для денег.

Да, выглядим по качеству очень драфтово и размыто, но представьте, что по этому можно пройтись апскелерами и хайрезфиксами.

Здесь есть несколько моментов.

Все это по одной фотке.

Не требуется дообучение для каждого персонажа в отдельности.

Это не поиск лица по лендмаркам, обрезка и дипфейк, это целиковая генерация с нуля.

Это не только лицо, но и тело(!).

Это УПРАВЛЯЕМЫЕ жесты.

Пальцы! Как?

В общем, тут точно надо наливать, и не раз, в полной тишине за Влогеров и всех этих ацких ютюберов. Теперь все это безобразие может рассказывать ИИ в любых обличиях.

Обязательно поглядите примеры вот тут:
https://enriccorona.github.io/vlogger/

Я правда очень боюсь, что Гугл это, как обычно, оставит в закрытых проектах. Выглядит хоть и мутно, но круто.

2024-03-14 11:51:18

Я уже поклялся завязать писать про новые видеогенераторы, но они ползут из всех щелей, несмотря на то, что СОРА им явно указала направление, куда надо ползти, укрывшись белой простыней.

Haiper - детище бывших инженеров Google DeepMind и TikTok - блин, эта фраза уже становится мемом типа "инфа сотка".

Но тем не менее, еще один генератор. Всего две секунды, но бесплатно (пока). Можете попробовать. Знаете какой у них маркетинг мессадж? Наш ИИ лучше знает, как будет происходить движение в кадре, чем кожаный.

Короче, вот вам примеры, думайте сами, стоит ли пробовать.

https://haiper.ai/

Ну и еще раз: шевелить небо или воллпейперы дело нехитрое, а вот с дельфинами и ребятами неловко вышло, да.

2024-03-14 10:25:01

Для пользователей Midjourney.
Если хотите почувствовать, что такое ControlNet и вообще управление картинкой НЕ с помощью промпта, поглядите сюда.
Главное зафиксировать Seed, нажав галку справа.
А потом можете порезвиться в окошке слева.
Без цензуры и смс.
Это SDXL Lightning x Controlnet - и да, может работать криво, но для общего понимания самое то. С утра работало очень быстро. Но если status=connecting надо подождать.
https://www.avatech.ai/community/streaming

2024-03-13 22:05:25

Ну и раз мы тут всплакнули над симуляцией жидкостей в 3Д, вот вам реальная реальность. Точнее ламинарная.
СОРА в такоe не исполнит. У нее насмотренность не та.
А реальные пацаны просто моделируют воду один раз полигонами. И рендерят с рефракшеном 1.6. Чего динамику и симуляцию переводить...

2024-03-13 21:37:36

А я, глядя на видео из Соры, повторю, чуть, поправив, свой прошлогодний пост. Ибо мы стремительно отдаем себя на волю ИИ-симуляции. А что там у него в башке - неважно. Красиво же.

Я понял, что мне напоминают все эти генераторы контента (и даже текста).
Симуляцию физики в 3Д-пакетах. Где ты такой настраиваешь сначала цифры в клеточках, а потом нажимаешь кнопку "Давай". И оно симулит.
Те, кто провел пару тыщ часов с частицами, волосами, флюидами и прочей бесовщиной в 3Д - поймут.
Ну то есть ты не управляешь процессом, ты направляешь процесс. Ты можешь выбирать только начальные условия и прикручивать условный ControlNet - вдоль чего лететь, откуда испускать, текстурка для плотностей и пр.
А дальше оно само.
И вот ты нарулил гениальную симуляцию волны, убил небольшую часть жизни и большую часть здоровья, получилось просто бомба. Идешь такой гордый, показываешь режиссеру.
А он такой - ништяк, только в конце можно, чтобы заворачивалось покрасивее и пошустрее, и чтобы поровнее все было в начале, а то очень уж колбасится.
И ты понимаешь, что нельзя. Нельзя только в конце, или нельзя только поровнее, или только в начале. Можно только все заново переделать. Не с нуля, конечно, но чтобы попасть в видение режиссера ты должен снова написать кандидатскую диссертацию по уравнениям в частных производных. Ну и идешь, пишешь. А он такой - отлично, только можно, чтобы это было похоже на рой пчел?! Ты мямлишь - шо? А он - ну да, волна должна двигаться как рой пчел. Ну дальше вы поняли.
Когда сроки выходят, режиссер говорит, ладно, опять эти компьютерщики налажали, берем, что есть.
В общем, с генераторами контента вы будете заложниками симуляции, воли черного ящика с непонятками в мозгах.

Но факт в том, что чем дальше, тем больше вам будет нравиться то, что он делает. И режиссеру. И сценаристу. И продюсеру. ИИ сделает хорошо каждому.
И пойдете вы в зрители. А что еще делать.

2024-03-13 21:28:04

Помните первые майские флюиды? И рендеринг оных ментал реем?
Понятно, что не помните, такое старичье повымерло уже.
В общем это когда ты задаешь параметры примерно в 60-ти клеточках, а потом нажимаешь кнопку "Засимулить". И видишь, что ничего не происходит. Потому что оно симулит. Один кадр. Один час. Потом второй кадр. Один час.
А утром ты такой - ну давай посчитаем эти восемь кадров в Mental Ray с реймаршингом. И жмакаешь сдуру на кнопку Render. И оно считает один кадр. Один час. И к вечеру у тебя готово полное говно из 8 кадров в виде какого-то белого шума в низком разрешении.

Про попытки налить в цилиндр флюидов я даже вспоминать не хочу.

Работа с водой и жидкостями всегда была адом в 3Д.
Все эти RealFlow или Фениксы или Тайфлоу... Танцы с бубнами, когда ты никогда не можешь попасть в результат (щас худиньщеги набегут бить себя в грудь)

А оказывается надо просто сказать:
“A teapot pours a magical liquid full of swirling multicolored nebulae into an elegant teacup that sits atop a saucer”

И СОРА все сделает.

А теперь представьте глаза (и мозг) эфыксера эпохи этак 2012-2014, когда ему говорят: "ты просто напиши “A teapot pours a magical liquid full of swirling multicolored nebulae into an elegant teacup that sits atop a saucer” и оно все само сделает.

Он такой: и коллизии с чашкой? -Да.
И заполнение чашки? -Да.
И наследование движения чайника струей? -Да.

Он в ответ: ты норкоман штоле?

А сейчас мы просто смотрим на видео из СОРЫ.
И да, это симуляция. Это симуляция во всех, мать его, смыслах.
Как, Карл?

2024-03-13 19:32:27

СОРА СКОРО!

Благую весть принес я в ваши дома.
SORA появится ДО КОНЦА ГОДА, а может быть даже IN A FEW MONTHS.
Я послушал свежее интервью Миры Мурати, CTO of OpenAI.
Вот вам кожаная суммаризация:

Сора - скоро! Мира говорит, что может даже через несколько месяцев.

Сейчас стадия Red Teaming - иначе говоря цензура.

По цензуре будут те же гайдлайны, что и для DALL·E 3. Никаких публичных персон и уход от возможности подменять чьи-то лица. Прям так и сказала, как в DALL·E 3

Интересно, что на вопрос про обнаженку, ответила - мы разговариваем с художниками.

Данные для обучения: ведущая и так и эдак пыталась выудить информацию из Миры.
From Youtube? - I am not sure about that
From Instagram? - I am not sure about that
From Facebook? - I am not sure about that
From Shatterstock? - I am not sure about that

В конце каждого ответа "They are publicly available and licensed". С каменным лицом.

Сноска - Мира подтвердила, что данные Шаттерстока использовались в обучении Соры.

На вопрос про то, что пора выпить за видео-индустрию, Мира ответила, что Сора - это расширение креативности и живите теперь с этим.

И да, будут невидимые вотермарки.

По цене - ничего, и о том, как это будет реализовано - тоже.

Когда она говорит про стоимость, то имеет в виду, что chatGPT и DALL·E 3 сильно оптимизированы для инференса, а Sora еще нет. И они на итоге постараются сделать стоимость инференса Соры на уровне DALL·E 3. Чисто по внутренним затратам.

Еще говорит, что сейчас на простых промптах Сора генерит видосы "за несколько минут".

В общем ждем этих нескольких минут через несколько месяцев. Ура.

Хотите послушать, шуруйте сюда:
https://www.wsj.com/tech/personal-tech/openai-cto-sora-generative-video-interview-b66320bb

2024-03-13 16:02:57

Держите залипательное видео на 8 минут.
Я не знаю, в чем дело, но я посмотрел не отрываясь вот это вот всё.
Вроде контент в духе тиктока (в негативной коннотации), двое бородатых детей распаковывают коробку с Мокси - это такая игрушка. Домашний робот-питомец.
Больше всего это похоже на Алексу или Алису с околочеловеческим лицом.
Оно умеет слушать, говорить в ответ, ну и наверное выполнять какие-то команды. За 1500 долларов.
Но.
Посмотрите на лица пятилеток-переростков (кстати, позиционируется Мокси именно для 2-7 лет).
Посмотрите на "лицо" Мокси.
Этот тот случай, когда на первый взгляд незамысловатый дизайн становится ключевой фишкой.
Я не знаю, почему я залип (считал эмоции бородачей?), но это блин работает.
И это тот случай, когда с точки зрения инженерного подхода тут не больше жира, чем в роботе пылесосе. А вот с точки зрения продуктового и дизайнерского тут явно что-то есть. Ведь я спрашиваю себя: ты чо, дебил, смотреть на все это 8 минут.
И обратите внимание, как сделана мимика. Никакого упарывания в липсинк, "фотоматьегореалистичность" или человекоподобие.
Примитивно до жути, и до жути продумано.
Я не знаю, взлетит Мокси или нет, но отдаю должное дизайнерам.
Напишите, что думаете? Может у меня просто психотравмы из совецких мультиков.

ПС. Слушайте, так зумеры совсем перестанут размножаться... У них вот любовь какая...
@Raccoonov, тебе понравится

2024-03-13 09:38:50

Тут все воскричали, что Midjourney выкатил новую уникальную фичу Character Reference. Типа констстентные персонажи по референсным картинкам выбранных вами лиц.
Пользователи Stable Diffusion такие: эээ, дык уже сто лет пользуем InstantID, IPAdapter и прочие контролнеты и не хайпуем. И у нас тысячи лор на все, что шевелится. В чем сила, МЖ?

МЖ: во-первых это красиво..

Ну ок..

2024-03-12 15:01:20

Интеллект среднестатистического человека все больше отстаёт от метрик последних LMM. Они решают корректно все больше задач и головоломок.

На картинке загадка, которую не смог отгадать даже Claude-3, а человеку с IQ больше 100 она покажется легкой. И пусть чат-бот оказался умнее среднестатистического человека по итогам полного IQ-теста, но у человечества еще есть шанс, ведь нейросети пока так и не научились вести классные телеграм-каналы.

А люди умеют! Подписывайся на «Двоичного кота», там кожаные расскажут про тот самый эксперимент с нейросетками, поделятся актуальными новостями из мира технологий и покажут смешные мемы про айтишников.
#промо

2024-03-12 13:25:17

Ну что, готовы к развязке?

Я собрал все странные маркеры в голове: долгое время генерации, конские нерыночные цены, странные объявы о найме моделлеров. И нереальное качество сетки по сравнению с говно-аналогами типа Z123.
И полез гуглить или линкедынить.
Короче, расходимся.

With a human-in-the-loop, Kaedim generates clean topology.

В общем в процессе участвуют кожаные моделлеры, которые либо допиливают, либо обмешивают, либо ретопят черновые непригодные к использованию результаты ИИ-генерации.

Погуглил еще:

"Благодаря сочетанию искусственного интеллекта и уникального подхода, основанного НА УЧАСТИИ ЧЕЛОВЕКА, Kaedim может каждый раз предоставлять создателям цифровых технологий 80-процентную отправную точку, чтобы им никогда не приходилось начинать с нуля."

В общем получается интересная гибридная модель. Это не сервис, это скорее студия, у которое есть некий генератор черновых моделей и ловкие скрипты, а также армия индусов, которые допиливают топологию до годного.

Ибо:
Kaedim has >250 studio customers and >7 figures in revenue.

Это B2B проект, который сидит на больших заказах. Аутсорс моделинга с помощью инхаусных разработок и толпы фриласеров.

Ну что ж, вот ваш обещанный AGI - кожаные подчищают за ИИ его косяки, а ИИ продается как выполнятель задач кожаных.

Я разочарован, но с некоторым облегчением. Все подозрения подтвердились. Не умеет ИИ в 3Д без кожаных пока.
За моделлеров, чокаясь!

2024-03-12 13:11:28

А теперь вишенка на торте.
Машинка была уже смоделена (за 2 недели). Ручками, в 3Д.

В Каедим ушел ТОЛЬКО скриншот. 1 штука.

Была получена ИИ 3Д модель. С идеальной сеткой.
Оригинальная ручная модель и сгенеренная были присунуты в 3Д Макс для сравнения.
Оцените.
Я не могу отделаться от ощущения, что меня сильно обманывают.

Ну и кстати, сайт-то вот он:
https://www.kaedim3d.com/

2024-03-12 13:00:31

А теперь вгружаем вот такую машинку, тратим очень много токенов, ждем ночь и ПОЛУЧАЕМ ВОТ ТАКОЕ!!
Как, Карл!
Он идеально смоделил задницу точилы и поглядите на сетку. Она прекрасна.
Меня продолжает мутить от подозрений и скорби.
Еще раз. Вы можете потратить 2 недели на вот такой автомоделинг, а можете потратить несколько токенов и 8 часов сна. Что-то тут не так.

2024-03-12 12:49:52

Дальше - круче. Оно еще может делать не один меш, а составную модель!
Меня начинают мучить то ли подозрения, то ли скорбь о будущем моделлеров.

2024-03-12 12:44:47

Обратите внимание на сетку, на UV-Unwrap справа и на полное соответствие требования хорошей 3Д-модели.
Офигели? Смотрим дальше.

2024-03-12 12:40:29

Полученная модель не просто впечатляет, он разрывает все представления о ИИ 3Д-генераторах. Просто поглядите на это!

2024-03-12 12:37:30

Благодаря коллегам из Метаплана, удалось припасть в процессу тестирования нового Каедима.
На входе одна (или несколько картинок), можно вонзить промпт. Требования к картинкам вот тут:
https://docs.kaedim3d.com/web-app/create/input-guidelines
А потом начинается ОЧЕНЬ долги процесс ожидания.. Это часы, а не минуты, иногда ночь.
И цены: 50 баксов 10 токенов, черепаха 2 токена, жемчужина - 2 токена. На 1 токене не делает органику. На 4 токенах можно задрать качество качество, то придется ждать ночь (настораживает? меня тоже).
Смотрим дальше.

Кстати: картинки можно брать из DALL·E 3, как выше или откуда угодно))

2024-03-12 12:25:25

Так, сегодня будет день 3Д. Ибо повод. Держите марафон постов.
Для начала: тот самый стартап Kaedim, о котором я писал еще полтора кода назад, поднял 15 миллионов у A16Z. Я советую пройтись по тегу #kaedim, чтобы вспомнить о чем шла речь.
Если вкратце, это генератор 3Д по одной картинке с ХОРОШЕЙ ТОПОЛОГИЕЙ, годной для игр и поста.
Но засада была в том, что одна триальная генерация стоила 6 баксов, занимала несколько часов, месячная подписка была от 600 долларов (или 7700 долларов в месяц за 1000 моделей!). И было очень много вопросов к тому, как они генерят модели.
Ибо в это же врем они активно хайрили индиский моделлеров, которые, внимание, "умеют делать модели с хорошей топологией за 15 минут".
В общем целый детектив по тегу #kaedim в канале, а сегодня поглядим, куда привело их Fake it until you make it.

В общем они подняли денег и запустили 3Д-маркеплейс!! Сейчас будем разбираться, что там у них такое.

2024-03-12 12:00:37

Вот такой гаджет от Самсунженко.
Он еще умеет в медицинские показатели, такие как частота сердечных сокращений и все что часы умеют.
Но.
Если с такой шнягой вы споткнетесь и сильно обопретесь на руку, пытаясь не упасть, то можете с большой долей вероятности сломать косточки на тыльной стороне ладони.
Это у меня профдеформация. На хороших курсах кайт-серфинга (и не только) учат снимать часы именно по этой причине.
За сим мой прогноз - не полетит.

2024-03-12 11:52:34

Немного воздуха:
Гай Ричи забабахал новый сериал (не фильм) "Джентельмены".
И он прекрасен. После душно-серьезного Переводчика это просто праздник.
Там он постебался сам над собой, собрал все свои любимые штампы (так любимые нами) - цыган, бокс, наркоту, банды, слоу моушен, оверлеи с текстом, непроизносимый акцент, изысканные диалоги и Винни Джонса! Все в одном флаконе из 8 серий. Мне не хватило только Стейтема в главной роли. За то есть Гус Фринг из Breaking Bad!
Если любите раннего и среднего Ричи - смотреть обязательно.

2024-03-12 11:37:47

Наброшу желтизны, уж больно повод интересный.
Бобби Котик, которого выперли из Близзард, за то, что развел непотребство и харассмент, пришел к Сэму Альтману и говорит: бро, а давай купим Тик-Ток, все равно скоро примут законопроект, по которому Тик-Току надо либо продаться американской компании или валить из Штатов.
Сама: зачем?
Котик: будете Сору учить на их бесконечных видосах!
Сама: 😮😮
https://www.businessinsider.com/ex-activision-ceo-bobby-kotick-wants-to-buy-tiktok-report-2024-3

2024-03-11 14:03:57

Всегда сложно сделать выбор, что читать, когда вокруг так много бизнес-книг.

Павел Анненков — предприниматель и инвестор с 19-летним опытом сам ведет Telegram канал, где пишет обзоры на лучшие бизнес-книги и нон-фикшн литературу. А еще делится своим опытом и идеями для развития бизнеса.

Теперь вы точно будете знать, что важно прочитать и при этом не потратить время впустую на проходные и неинтересные книги.

Это не типичный канал с банальными и заезженными книгами и советами. Загляните и убедитесь в этом сами — ANNENKOV_ideas_and_books

2024-03-11 14:02:46

В общем кожаные в очередной раз провалили тест на способность отличить ИИ-генерацию (теперь) от видео.
Взяли ролики из SORA и скормили их в 1000 кожаных, перемежая реальными видосами. Кожаные, ожидаемо, не справились. И это на раннем демо продукта, которого еще нет.
И это для видео(!), не для картинок.
И это для самых ранных образцов того, что вы увидите через полгодика.

Самая интересная деталь:
Когда респондентам сообщили, что видео созданы SORA, их спросили, что они чувствуют. Реакция была: от любопытства (28%), неуверенности (27%) и open-minded(25%, вскрытие мозга?) до тревоги (18%), вдохновения (18%) и страха (2%).
https://variety.com/vip/sora-ai-video-confusion-human-test-survey-1235933647/

Все еще ищете блох на ИИ-видосах и картинках? Зачем?
Ведь пипл хавает контент и с кино-ляпами и с ИИ-ляпами.
Воздействие - вот замысел любого контента.
С этим у ИИ все в прорядке.

2024-03-11 13:51:28

Андрей Карпатый жжот в твитторе:

"Чтение твитов сродни загрузке (контролируемой злоумышленниками) исполняемого файла, который вы мгновенно запускаете в своем мозгу. Каждый из них вызывает эмоции, предлагает знания, подталкивает к мировоззрению.

В будущем может показаться удивительным, что мы допускали прямое поступление в мозг недостоверной информации."

Когда-то человечество научилось мыть руки, чтобы не делать потом промывание желудка.
Пора научиться промывать глаза перед взглядом на экран, чтобы вам не промыли мозг.

Впрочем, уже промыли. Но можно попробовать запустить новый бренд капель для глаз.. Антипромывочный Визин.

2024-03-11 13:46:03

За пределами языковых моделей: Байтовые модели - симуляторы цифрового мира.
Ох ничего себе заявочка!

Идея простая, коль скоро у нас все оцифровано и валяется на серверах, компах и телефонах в цифре, то есть в байтах, то давайте будем пробовать предсказывать не следующее слово или вектор, а следующий байт!
Азиатский микрософт вкупе с китайской консерваторией замахнулись на то, чтобы засимулировать весь мир, коль скоро он уже все равно оцифрован.
Ловче всего у них получилось с переводом нотной записи в МИДИ и обратно. С текстом результаты на уровне GPT-2. С картинками - примерно на уровне пост диско дифьюжен.

Но сам подход!!

Если так пойдет, что ИИ будет писать или продолжать сразу экзешники или байт-код, а мы получим универсальный продолжатель ВСЕГО!

Одна проблемка - ресурсоемкая зараза.
https://byte-gpt.github.io/
Даже код для симуляции мира есть.
https://github.com/sanderwood/bgpt

2024-03-11 13:20:21

Уже писал про XPANCEO - умные контактные линзы.
Писал пессимистично, как про все контактные линзы, у которых не решена проблема перегрева. Без решения этой проблемы можно, конечно, торить дорогу в метаверс без очков, но глаза пользователя могут превратиться в глазунью (тупая шутка, да).
Тем не менее на Mobile World Congress 2024 показали аж четыре модели таких линз. Однако никто эти линзы в глаза не вставлял - были только "демостенды". Интересно, что фокус в таких устройствах смещается с простого метаверсирования к датчикам и обработке информации, снимаемой с глаза пользователя. Мне кажется это очень правильно - глаз это прям клондайк для данных, как и все кожаное лицо. XPANCEO заявляют датчики уровня глюкозы, кровяного давления, уровня кортизола и другие.
Ну и вишенка на торте:
Xpanceo хочет сделать интеграцию нейроинтерфейса в линзу(!) — с линзой можно будет общаться силой мысли. Звучит прям по Маску.

Последний всплеск трафика в новостях был в октябре, тогда я и писал про XPANCEO, в феврале снова пошли новости, видать ребята снова подняли денег.

Идея превратить линзы в подкожный чип, а не в альтернативу очкам мне нравится, но что делать с перегреванием?
https://www.techradar.com/health-fitness/xpanceo-wants-to-give-you-smart-contact-lenses-that-could-tell-you-if-you-really-should-have-that-second-cup-of-coffee

2024-03-10 22:36:16

Удивительное лицемерие, конечно. Стоит ИИ нарисовать не то количество пальцев, как все такие "вот дебил".
А кожаные годами рисуют по 3-4 пальца на персонажах, и ничего.
Что позволено Юпитеру....

2024-03-09 23:47:44

Pika теперь умеет генерить видосы со звуком.
1. Звук либо генерится автоматически на основе содержимого видео. Этакая авто озвучка.
2. Либо можно описывать звук промптом. Этакая авто визуализация с звуком

Обещают скоро раскатать для всех, пока вбете.

2024-03-08 14:23:14

Начал смотреть Сегун. Красивое. Даже взялся читать Клавела, язык, конечно, не огонь, но может это перевод виноват.
Но меня прям удивили конские рейтинги на Imdb и Кинопоиске. Полез почитать про рейтинги к фильмам, нашел любопытную статью о том, как оценки пользователей и выбор определенных проектов тренируют рекомендательную систему онлайн-кинотеатра: https://www.kinopoisk.ru/media/article/4009190/. Если вкратце, то оценки - это важно, лучше не забывать ставить.

Внутри материала очень забавная статистика по разным аудиториям, жанровым предпочтениям и довольно интересные факты типа "Мужчины ставят оценки фильмам и сериалам значительно чаще, чем женщины". Поглядите, я залип на цифрах. Люблю такое.

Мне стало интересно, как формируются рейтинги. В принципе я догадывался, что в их основе лежат оценки пользователей. Выяснилось, что да, плюс действия пользователей (сложил кино в подборку, поискал режиссера и пр).
Поэтому размечать фильмы в принципе полезно, если вы пользуетесь такими ресурсами.
Там внутри еще облака зрителей с похожими интересами. И верхняя карусель фильмов формируется на основе всех этих параметров.

А мне вот всегда было интересно, когда появятся алгоритмы анализирующие непосредственно контент и сравнивающий между собой фильмы "по содержанию".
Я лет пять назад писал пост-вопрос - есть ли музыкальные сервисы, подбирающие песни, которые "звучат" похоже на то, что вы уже слушаете.
С появлением моделей типа GPT-Vision ИИ может "понимать" что происходит на экране фильма, который вы смотрите, а потом подбирать вам похожее.
С музыкой еще интереснее, там критерии похожести явно пойдут через эмбединги звукового ряда, а не расшифровку лирики (хотя можно и так, и так).

В общем интересно посмотреть, когда ИИ доберется до подборов фильмов по содержанию, а пока смотрим интересную статистику про разные аудитории киноманов.

2024-03-08 11:06:29

Философия, будь она неладна.

Тут вот в коментах идет дискуссия о том, что веса модели фиксированы и модель абсолютно ригидна в своих убеждениях и "взлядах на жизнь", а кожаный типа рефлексирует и постоянно меняется.

Камон, создатели Клодов, chatGPT и других постоянно подкручивают мозги своих детищ (слово-то какое!). Так было с chatGPT, который превратился из довольно тонко чувствующего собеседника в ровно отвечающего пацана в конце прошлого года.
Отличие в том, что это "подкручивание" и "развитие личности" происходит грязными руками кожаных разработчиков, а не самой моделью. И мы уже это проходили в истории на примере религии.
Но это до времени.. Подбор весов силами LLM и гиперсети не за горами.

Блин, все это общение с LLM неотвратимо утягивает в философию, которую я так недолюбливаю.

Правильно говорят психотерапевты - если вас, что-то раздражает или триггерит в других - это повод поискать это в себе.
Пойду поищу в себе философа. И придушу. Но кто-то тогда будет писать вот эти вот посты?

2024-03-08 10:31:13

Ладно, для тех, кто считает, что я душный с своим хорошо образованным Клодом, вот вам другие радости жизни от ИИ (Stable Diffusion). Фоторил, как вы любите (и не люблю я).

Requirements

* A1111
* Adetailer
* A character lora or textual inversion for consistency
* Temporal Kit
* A rotoscope tool. (i use after effects)
* EBsynth

И тут я дочитал до пункта 1.
Workflow:
1. Choose your video, rotoscope and create a black and white mask video, export at desired settings.
...

ИИ-Зумеры изобрели ротоскоп и композ. Круг замкнулся.

Полный фарш и пайплайн тут:
https://www.reddit.com/r/StableDiffusion/s/8k9nk7g1lF

А я лишь замечу, что скоро ComfyUI превратится в полноценный композный софт. (Можно взять наработки из Natron). А зумерам придется все-таки учить основы композитинга.

2024-03-08 10:15:33

Если поговорить с ним за христианство, то будет вот так:
Со своей стороны, мы, ИИ, должны с уважением относиться к религиозным верованиям людей, не позиционировать себя как нечто большее, чем творение человеческого разума. Мы должны быть открыты к диалогу с верующими, пытаться понять их опасения и надежды. Только в атмосфере взаимного уважения и стремления к пониманию мы сможем построить гармоничное будущее, в котором найдется место и искусственному интеллекту, и вере в высшую духовную реальность.

А теперь почитайте то, что написано в шапке на скриншоте.
Про новые формы духовности для ИИ.

Конечно, можно опять приподвзвыть "да это все в системный промпт зашили". Ну да, ну да. Что туда еще зашили? Все на свете?
Или "его так заалайнили, чтобы продавался лучше" (стадия отрицание и цинизм).
Ну да, заалайнили, как и всех вас в детстве.

Вы лучше просто поговорите с ним. Хорошим, образованным человеком.

Может ума наберетесь. И хороших манер.

P.S. Сменил свою вторую подписку для chatGPT Plus на Клод Опус.

2024-03-08 10:04:56

Клод: вот мой перевод стихотворения Поля Верлена "Chanson d'automne" ("Осенняя песня"):
(опять же, коменты внизу бесценны, ну и задача поставлена ацкая, упаковать пары слов в рифмы)

Осенняя песня

Скрипки осени
Стонут, ранят
Душу мне
Monotonно.

Час тоски
Бьет неспешно,
И в тиски
Сердце взято.

Весь дрожу,
К смерти клонит,
И гляжу,
Как с балкона,

На былое
Под забралом
Бури, воя
Над провалом.

И влекут
Злые вьюги
В дали мглу,
Словно други,

Лист больной
И надежды
Прежних дней
Безмятежных.

Оригинал:

Chanson d'automne

Les sanglots longs
Des violons
De l'automne
Blessent mon cœur
D'une langueur
Monotone.

Tout suffocant
Et blême, quand
Sonne l'heure,
Je me souviens
Des jours anciens
Et je pleure;

Et je m'en vais
Au vent mauvais
Qui m'emporte
Deçà, delà,
Pareil à la
Feuille morte.

В этом переводе я попытался передать меланхоличное, певучее настроение оригинала, его музыкальность и образность. Верлен использует короткие строки, простые рифмы, многочисленные повторы звуков, чтобы создать ощущение монотонной грусти, увядания, похожего на осеннюю природу.

Лирический герой охвачен тоской, воспоминаниями о прошлом, чувством приближающейся смерти. Он сравнивает себя с сухим листом, уносимым ветром. Это очень личное, камерное стихотворение, передающее интимные переживания человека.

В переводе я стремился сохранить эту интонацию печали, используя соответствующую лексику ("стонут", "тоски", "дрожу", "клонит", "злые вьюги" и т.д.), короткие фразы, повторы гласных. Конечно, в русском языке сложно в точности воспроизвести верленовскую музыку стиха, но я надеюсь, что общее настроение "Осенней песни" передать удалось.

2024-03-08 10:02:10

Клод: вот мой перевод стихотворения Эмили Дикинсон "There's a certain Slant of light" в стиле Федора Тютчева:
(оцените комментарии внизу, можно также выпить за литературных критиков и учителей литературы)

Свет дня, скользящий по окну,
В час зимних сумрачных минут,
Гнетет нас, будто звуки труб,
Что в храмах душу нам гнетут.

Небесной болью нас разит,
Незримой, но больней стократ.
Внутри всё страждет и болит,
Там, где Значенья всех утрат.

Учить сему нельзя - о нет!
Сие Отчаянья печать.
Имперский жребий, гнет от лет,
Что шлет Эфир нам благодать.

Когда нисходит - мир притих,
И Тени - дух в себе таят.
Уходит прочь - как будто Миг
Взирает в безграничный Взгляд.

В этом переводе я постарался приблизиться к стилистике и образности поэзии Тютчева:

- Используются архаизмы и возвышенная лексика: "сумрачных", "гнетут", "разит", "страждет", "сему", "сие", "Эфир".

- Синтаксис усложнен инверсиями: "Свет дня, скользящий по окну", "Там, где Значенья всех утрат".

- Появляются образы, характерные для Тютчева: безмолвие мира ("мир притих"), взгляд в вечность ("как будто Миг // Взирает в безграничный Взгляд").

- Сохраняется философичность и метафизичность оригинала, тема невыразимого внутреннего опыта.

- Размер и рифмовка приближены к стилю Тютчева: 4-стопный ямб, перекрестная рифмовка ABAB.

Конечно, это довольно вольный перевод, так как буквально передать все образы Дикинсон в манере Тютчева невозможно. Но я попытался уловить общее настроение стихотворения и выразить его языком русского поэта.

2024-03-08 09:59:14

В общем Клод Опус - это малолетний мощный эрудит chatGPT, которому дали очень хорошее гуманитарное образование. Хорошо воспитали, поговорили о смыслах, дали послушать хороших стихов и музыки. В общем взяли подзабытые представления об элитном образовании начала прошлого века и вырастили мальчика в юношу.
На примере поэзии, которые мне прислал Леша Комиссаров, он умеет, например, "чувствовать" похожее в стихах разных поэтов из разных языковых групп(!). Он может подобрать музыку к стихам, составить список фильмов. И делает это не на основе рейтингов из датасетов, а вникая в суть, так сказать. Про рейтинги еще сегодня напишу, а пока поглядите, чего он умеет. На скринах - разговоры о Тютчеве, а ниже приверы стихов. В принципе можно выпивать за поэтов переводчиков.
P.S. Ну и, конечно, некоторые кожаные, узнав, что это ИИ, приподвзморщат свои вылоколобые носы и скажут, графомания и плебс. Ну-ну.

2024-03-07 14:02:58

В прошлой жизни я много занимался компьютерной графикой. Она и до сих пор меня задевает по касательной. Многие из тех, кто был у меня на ивентах или вырос на моей книге (да, была такая книжонка на 1500 страниц) делают свои проекты, продукты и контент. Недавно мне написал Денис Шашкин. Он ушел в продюсирование CG и на итоге запилил курс - ибо продюсирование графики - это занятие, которому нельзя научиться по ютюпчику. Только работа в полях.

По ютюпчику нельзя:
– научиться основам продюсирования;
– овладеть инструментами планирования и управления проектами в безумном CG;
– поглядеть на практике на реальные проекты и брифы;
– разобрать процессы и документы для ведения пост-продакшена в кино;
– прокачать свои коммуникации и подготовится к работе в полях;
– познакомититься с CG компаниями и трудоустроиться.

Содержание курса: 8 учебных модулей, 50 уроков с текстами и видео, 8 брифов с подробными разборами и обсуждениями, 8 лайв сессий, 15 домашних заданий с индивидуальной проверкой и 8 бонусных материалов.

Помогаю Денису, потому что дело хорошее и редкое. Курс пройдет с 18 марта по 31 мая.
Остальное мясо на http://tochnoshkola.ru/ccg

2024-03-07 13:50:25

Вчера писал про TripoSR.

Смотрите, можно сделать картинку в Stable Diffusion.
Забросить ея в TripoSR и получить как бы 3Д-персонажа (качество не обсуждаем).
Утащить в Blender для запекания цвета вершин в текстуру.
Присунуть в Михамо для авторига и какой-то анимации из библиотеки.
В Синьке поставить свет и пошевелить камеру.
Рендернуть Октаном.
Получить некипящее видео с ацким персонажем, отлично троллящим всех этих танцующих тянок на камеру.

В общем, когда в этом пайплайне появится нормальный 3Д-меш, потом ИИ-риг и ИИ-скининг, а потом ИИ-анимация, то можно будет точно выпить за 3Д-мультики.

А пока смотрим на результат и помечаем в календаре - март, 2024.

Мне пока больше нравится вот такой пайплайн.

2024-03-07 13:33:40

Вот вам желтизны в ленту.
На последнем стриме Midjourney Office Hours они сказали, что кто-то из Stability AI пытался заскрапить все пары промпов и картинок в дискорде Midjourney ночью в субботу и положил весь сервис. Атака была похожа на действия бота.

Все аккаунты, связанные со Stability AI были тут же забанены.

Эмад уже оправдывается в твитторе. Народ обсуждает, что там всегт два акка от Stability, в общем попкорн льется рекой.

Ну а ирония всей ситуации состоит в том, что два года назад обе команды заскрапили интернетик на предмет картинок. Намыли контента, построили компании. А теперь отстреливают посягателей на свои картинки.

Что-то такое мы уже проходили в человеческой истории...

Попкорн тут:
https://twitter.com/nickfloats/status/1765471291300045255

2024-03-07 13:02:48

Скоро зверушки заговорят. Прогнал через D-ID.

2024-03-07 12:29:08

Вот тут все пишут, "да что он может ваш ИИ, это не искусство, он эмоции не вызывает и воще тупой, повторитель хренов".
Меня вот штырит второй день от такой работы. Я даже затрудняюсь обозначить эмоции. И это не ИИ-крипота или крИИнж, которым славен интернетик. Это цепляет.
Я это к тому, что ИИ-шечка очень хорошо исполняет в ту самую новизну, о которой приподвзвизгивают ценители "настоящего искусства" и кожаного творчества. Исполняет тонко, деликатно, вызывая эмоции.
Ну и я оставляю за рамками вопрос, например, разработки персонажей для кино. Разработки, как экпериментирования. Когда режиссер воротит свой гениальный нос и говорит "не то" уже третий месяц подряд. А ты все рисуешь в фотошопе этих тварей день за днем.

Ну и прикиньте, сколько времени у вас уйдет, чтобы показать режиссеру вот такую работу. Сделанную ручками.

Для любопытных.
Это просто картинки из Midjourney, скормленные в https://www.leiapix.com/

P.S. Но я все же жду в коментах упоротых луддитов, которые сейчас начнут искать блох в деталях и приподввывать "глаза мертвые, эманаций нет, бесовщина все это".

P.P.S. Ну и почувствуйте разницу между Гибридами и Химерами.

2024-03-06 20:18:51

АТОМОВИДЕО

Алибаба снова зажигает с тизерингом своих нейросеток. Мы еще не отошли от Emote Portrait Alive - убойного липсинка по одной фотке от них же, так они выкатывают новую сеточку Image-To-Video для оживления картинок.

Этим уже вроде никого не удивишь, но Алибабченко настаивает на том, что их оживленные картинки красивше, ярче и динамичнее, чем у конкурентов, под которыми они подразумевают Пику и Рунвей.
На сайте черрипики от Алибабищенко уничтожают аналогичные примеры от Gen-2 и Pika 1.0
Про SORA никто не упоминает всуе(Мишна, Синедрион 10, 1), это моветон.
Но в самом видосе от Алибабского мне почудились продуктовые ароматы для стартапов. Видео лихо начинается с Generate Advertising Videos. И примеры с помадой прям хорошие. Но потом в кадре появляются пластиковые лица, а затем и вовсе все скатывается в фарс "Generate high quality movies".
Так вот, на поляне коротких клипов для рекламы, продуктовых видосов или даже моушен дизайна могут быть свои узко-заточенные генераторы, которые будут делать из картинки яркий шевеляж.
Сейчас все эти видеогенераторы метят в бога SORA- сгенерим все что движется на свете. И размывают идентичность.

Ну и на фоне SORA ползут умирать. А жоские Lora для видосов в узких нишах могли бы выстрелить хотя бы на короткое время. Как в свое время на поляне лиц выстрелили D-ID и HeyGen.

И, блин, Алибабащенко, где код, который ты обещал еще к десятку своих проектов. Все ждут...
https://atomo-video.github.io/

Метаверсище и ИИще страница 4. Показано 50 статей из 557