Метаверсище и ИИще страница 2. Показано 50 статей из 557
2024-04-10 14:22:05
За Джипитишки.
Я долго терпел, но приподнакипело.
Смотрите, интернетик захлебывается от восторга - пользователи уже насоздавали 3 000 000 джипитижек. Ох и ах.
OpenAI обещал в ноябре, что в декабре запустит GPT Store. Запустил в начале года. Обещал монетизацию в марте, пока не запустил.
GPT Store - это довольно странный сервис, там, например, нельзя отфильтровать джипитишки, которые используют Actions (ну то есть более продвинутые). Навигация - ну такое.
И все больше напоминает мне помойку с chatGPT Plugins. Засранную плагинами, уводящитми трафик на сайты, без всякой пользы.
А восторженная цифра в 3 миллиона джтпитишек приводит меня в ужас, это сколько же говна надо разгрести чтобы найти что-то стоящее. Помните первый Андроид Маркет?
Ну и OpenAI, похоже не особо парится, как и с плагинами, над модерацией.
Меня просто тригернуло вот на такой джипитишке.
Это генератор изображений (внимание) на Stable Diffusion и модели Juggernaut внутри chatGPT, который предлагает вам ввести промпт, а потом показывает ссылку на картинку (в нее надо кликнуть, чтобы увидеть ее). И конечно, он пишет вам "срочно переходите в наш телеграм-бот или дайте денег хотя бы". В шапке джипитишки, естественно, ссылка на сайт, на сайте приглашение в телеграм бот.
В общем, GPT Store превращается в еще одну странную площадку, где пасутся стада GPT-ботов, уводящих трафик к себе (куда угодно).
Более того, я почитал многочисленные руководства по создания GPTs.
Знаете, что там пишут?
Чтобы вашу GPT заметили, сделайте от 100 до 1000 копий, немного изменяя текст.
Используйте привлекающие внимание фразы.
Давайте ссылки на свои проекты.
Ну вы поняли. Была SEO-оптимизация, сейчас мамкина gpts-оптимизация. Только OpenAI не Гугль, и модерацией, похоже, заниматься некому, все ИИ-модераторы заняты.
Кроме того, GPT Store почти никому не нужен: туда переходит только 1.5% пользователей chatGPT.
Обидно, что есть реальные шедевры типа джипитишек от Дениса Ширяева:
«Image Recreate, Edit & Merge» или «Aesthetics Prompt Enhancer»
Но они тонут в потоке заливаемого в GPT Store шлака, у которого одна цель, увести трафик.
А теперь представьте, что введут монетизацию. Помните NFT-игры и полчищща ботов? Если есть дикая немодерируемая поляна, то первыми туда придут боты.
Сам я в полном восторге от идеи GPTs - это просто шедевр в области программирования на человеческом языке со всеми вытекающими.
Но идея магазина, куда можно заливать товары любого качества, на изготовление которых не требуется особых ресурсов представляется мне спорной.
И вопрос в том, как OpenAI будет разруливать эту проблему.
Выговорился.
P.S. Посмотрел, что все сервисы типа veed.io которые были в плагинах, переобулись в джтипитишки, еще один канал нагона трафика.
2024-04-10 12:04:11
Метаверс, как цифрового двойник нашего мира с разными скинами.
Основная проблема мамкиных метаверсоводов - они не могут придумать, чем занять пользователей в своих кринжовых 3Д-локациях. Не говоря уж о том, как их мотивировать надеть полкиллограма железа на голову, для свидетелей виар-метаверсов.
Эти мерзкие кожаные юзеры готовы либо в игры играть, либо ботов писать, чтобы майнить шиткойны в нфт-метаверсах.
Когда вышла SORA все заговорили о world model. Модели нашего утлого мира (трехмерного притом) в голове у ИИ. Были даже работы о том, что в мозгах у ИИ есть локализованные области, в которых он хранит представления о пространстве и времени.
Но это все подводка.
Смотрите, несколько недель назад в Балтиморе контейнеровоз MV Dali столкнулся с одной из опор огромного моста и расхерачил всесь мост.
Благо у нас теперь везде камеры и видео катастрофы попало в интернетик в тот же день.
Так вот, смышленые ребята взяли все доступные видосы этого крэша, причем из открытых источников) и с помощью Gaussian Splatting сделали полную 3Д-реконструкцию аварии.
Не сгенерили кухонную сцену или смешные фигурки, а, блин, сделали копию кусочка мира в нужное время. По сраным камерам наблюдения.
А коль скоро у нас камеры везде и всюду, то в принципе у нас есть 3Д-модель нашего кожаного мира в 3Д в любой момент времени.
Туда также пристегиваются потоки данных с других датчиков и сенсоров, распознавание ваших унылых личиков, pose estimation и пр. И вот уже параллельный метаверс давно живет рядом с нами в соседних измерениях.
Теперь дайте ему разные скины. И получите мультиметаверсы.
А пока поглядите на видео и реконструкцию аварии в Балтиморе. Я в шоке.
P.S. Я топлю за эту концепцию уже года три, а два года назад упаковал это в плотное интервью с Витей Осыкой. Точнее интервью брал он, а я наваливал за Метаверс. Если интересно, воспроследуйте сюда.
2024-04-09 13:02:40
Давно предполагал, что разработчики Сбера на базе GigaChat будут создавать целое семейство Al-сервисов. SberDevices представили Giga Acoustic Model. Генеративные модели для обработки речи(звука) на русском языке.
GigaAM — аудиоэнкодер на 240 миллионов параметров, базовая модель, подходящая для адаптации под другие задачи;
GigaAM-CTC — открытая модель распознавания речи на русском языке (допускает в коротких запросах на 20–35% меньше ошибок в словах по сравнению с другими открытыми решениями);
GigaAM-Emo — модель определения эмоций, продемонстрировала лучший результат на крупнейшем датасете Dusha среди известных моделей.
Очень много технических подробностей с примерами использования этого семейства Al-сервисов на Хабре: https://habr.com/ru/companies/sberdevices/articles/805569/
2024-04-09 12:10:01
Ну и в целом фича audio-to-audio совсем не нова, я уже писал про очень забавный проект Musicfy, поглядите, если забыли:
https://t.me/cgevent/7077
2024-04-09 12:05:48
Вот эта вот audio-to-audio фича, которая появилась в Stable Audio 2.0 может иметь неожиданные применения, например, в производстве саунд-эффектов и при озвучке фильмов, причем речь идет не о голосе, а именно о шумах.
Поглядите забавный пример.
Если обобщать, то получается, что речь идет о скинах для звука или про style-transfer в очень общем смысле.
2024-04-09 11:51:16
А еще Krea.ai воще без цензуры. Вы ей показываете кружки и квадратики, а она вам рисует вот ТАКОЕ, извращенка.
Тут показать не могу, шуруйте в коментарии, там все-таки закрытая группа, телеграмм меня там не должен прищучить.
2024-04-09 11:43:46
Krea.ai, конечно, огнище.
Помните первые восторги от смешивания двух картинок в Midjourney?
А теперь расширяем сознание - подвешиваем в нем ТРИ картинки (в пространстве) и пытаемся представить микс из трех изображений. Причем микс идет не в пиксельном, а в "смысловом" пространстве. Ментальное 3Д.
Веса картинок можно менять, а новая HD модель выдает все это расширение сознания в 1024х1024.
Бежим пробовать: https://www.krea.ai/apps/image/realtime
И все это в реальном времени, Карл!
2024-04-09 11:30:33
Принес вам еще одну реалтаймовую нейрорисовалку.
Работает криво и косо. Можете попробовать вот тут:
https://akuma.ai/canvas
Не креа или визком, но сам факт того, что такие инструменты множатся, говорит о том, что есть огромный запрос на РИСОВАНИЕ, а не на КНОПКОЖАНИЕ.
Рисовалка смешная, исполняет в обнаженку (см пример в коментах), имеет разные стили, может быть использована как турбо генератор картинок.
Ждем такого функционала в фотошопе, чтобы закрыт вопрос с такими поделками.
2024-04-09 11:14:42
Нейроигры с погружением. В мозг
Я уже писал про Гейба Ньюэлла, главу Valve и папу Half Life (одного из 100 самых богатых людей США, его состояние оценивалось в 5,5 млрд долларов в 2017 году).
Прочтите мой лонгрид для разминки. Там как раз про стимуляцию игрока.
И если раньше Ньюэлл пытался соединить виар-шлемы и гарнитуры для съема энцефалограмм, чтобы подстраивать игровой опыт под ментально-физиологичекое состояние игрока, то сейчас, насмотревшись на Маска, решил делать импланты. В мозг.
Также стоит вспомнить проект OpenBCI+Galea - идея снимать тонну данных с головы игрока лежит на поверхности.
Но вот что будет, когда процесс пойдет в обраточку - и в голову игрока пойдут стимулы?
Вот тогда и придет настоящий киберпанк.
Поглядите на сайт, где похудевший на 20 кило Гейб Ньюэлл представляет свой новый проект:
Мы создаем следующее поколение нейроинтерфейсов, решаем важные проблемы и совершенствуем способы взаимодействия с миром.
https://starfishneuroscience.com/
2024-04-09 10:14:45
chatGPT-нашлепка на телефон.
У меня мозг взрывается от такого девайса.
На телефон вешается вот такая нашлепка, которая в принципе является диктофоном, который может выкликать chatGPT с целью суммаризации и перевода.
Вот тут они явно врут: Chime Note может мгновенно переводить со 108 языков. Это я про "мгновенно".
Ну и у меня один вопрос: а зачем тут эта нашлепка? Ведь можно написать приложение, которое делает то же самое. Или нельзя?
Кроме того, последний Самсунг в реалтайме переводит разговор НА УСТРОЙСТВЕ, без всяких вызовов chatGPT.
В чем сила, брат?
https://www.kickstarter.com/projects/chimenoteairecorder/chime-note-chatgpt-powered-ai-voice-recorder
2024-04-08 15:53:05
Ну за концептеров. Это я готовлюсь к постам про Креа, Визком и будущие нормальные интерфейсы, а не вот это вот все комфиюаищще и автоматищ1щ1щ1щ1е.
У корейцев много такого добра, прочекайте тут:
https://www.youtube.com/shorts/EoCdwUaErt0
2024-04-08 15:42:49
В прошлом году писал про ситуацию с Аленой, у которой "украли голос".
Ее ролик набрал больше миллиона просмотров на разных платформах. Голос Алены уже убрали "из продаж голосов". В общем ситуация бомбанула и поставила много вопросов, на которые нет ответов.
Вот тут развитие истории
https://dtf.ru/u/952987-holly-forve/2084880-tinkoff-zametaet-sledy
Но похоже на эти вопросы будет один ответ: читайте контракты.
Вот свежий пример: барышня озвучивала голосовой помощник Кортану для Микрософта. На немецком. За 3000 долларов.
Озвучила.
А потом ей стали звонить знакомые и говорить, что слышат ее голос отнюдь не из Кортаны, а воще непонятно где.
Все просто - голос был продан как оцифрованное звучание голосовых связок.
Девушку покрал у Игоря.
2024-04-08 15:12:09
Забавное исследование отклика на музыку.
Взяли восемь коротких мелодий, состоящих всего из четырех аккордов каждая. И полтыщщи слушателей.
В каждой мелодии было разнообразное сочетание свежих и предсказуемых аккордов, а также определенных и странных последовательностей этих аккордов.
«Наше исследование показывает, что разные последовательности аккордов вызывают схожие телесные ощущения в определенных органах, особенно в голове, сердце и брюшной полости».
Предсказуемая мелодия - ощущения в животе (безопасность?)
Мелодия с неожиданными новыми сочетаниями аккордов - ощущения в сердце (новизна?)
Тревожная музыка - в голове (все проблемы в голове).
Загвоздка в том, что картирование участков тела проводилось со слов испытуемых, а не датчиками или сенсорами. И, возможно, это показывает стереотипы (языковые прежде всего) о том, где живут тревога или спокойствие.
В любом случае это жутко интересно. И возможно в пятой версии Suno мы увидим галочки "Музыка для сердца\живота\головы". ИИ подучится на таких исследованиях и ну генерить музыку для специфический ощущений.
https://neurosciencenews.com/music-body-sensation-25858/
2024-04-08 14:14:22
Тема ИИ-гадалок пошла в массы.
Наконец-то.
Я писал об этом ровно 6 лет назад, когда ИИ еще ворочался в утробе слабых видеокарт.
Но, прогресс, как обычно, свернул не туда, поэтому поглядите на скриншоты и почитайте этот ад на русском вот тут:
https://twitter.com/facelessboy00/status/1777160844607988063
и вот тут:
https://twitter.com/gambala_codes/status/1777219418772128205
Ну и конечно, эти гадалки в телеграмме попросят у вас денег и призваны налить трафика себе в подол.
Я в свое время думал над ИИ-кукушкой, которая по вашему лицу и телефону накукует, сколько вам еще осталось лет куковать.
А тут коллеги подкинули вот такую работу прошлого года:
Глубокое обучение для предсказания прогноза рака по портретным фотографиям с помощью StyleGAN.
https://arxiv.org/abs/2306.14596v2
Я немного содрогнулся, потому что, если гадальщики выше сделают такой сервис и народ начнет получать свои онкопрогнозы, то у некоторых могут включиться очень нехорошие программы внутри. И я надеюсь, что на уровень инсты и ботов в телеге это не выйдет.
Но думаю, что инфоцыганская физиогномика сейчас расцветет в полный рост. Пока в интернетике активно работают раздеваторы и одеваторы по фото. Дальше по селфи они будут обнажать вашу душу и делать приворот шиткойнов. А потом доберутся до предсказаний чего угодно. По личику.
Хотя три года назад мы уже это проходили.
Анализ черт личности людей по их фотографиям (гадалки в кучу).
https://hightech.fm/2020/05/22/ai-personal-character
Также держите анализ здоровья и facial blood flow по фотачкам.
https://t.me/cgevent/1862
Ну и вишенка на торте:
"Этот искусственный интеллект, финансируемый ЕС, оценивает, насколько неотвратительно ваше лицо - с точки зрения общества. Система также определяет ваш возраст, индекс массы тела(body shaming detected)), продолжительность жизни(!) и пол."
https://thenextweb.com/neural/2020/10/06/this-eu-funded-ai-rates-how-hideous-your-face-is-for-societys-sake/
Погадаем?
2024-04-08 09:52:10
Ну, за челленджи.
Есть такой ютюбер pwnisher, у него нехилый такой канал по 3Д и разным челленджам. Я немного залип на последнем.
Был дан образец - болванчик поднимается по винтовой лестнице, надо было сделать креативный 3Д-рендер, на основе этого.
Народ прислал аж 2800 работ. Поглядите лучшие по ссылке.
А я подумал, что такого рода механики рано или поздно будут девальвированы с помощью ИИ.
Уже сейчас можно взять начальный образец и прогнать его через video style transfer и получить примерно 100 000 вариантов, которые можно прислать на конкурс.
Далее, если глядеть в сторону SORA, то можно представить себе генератор промптов, который на основе заданного сеттинга генерит 100 000 промптов, описывающих креативы, которые даже в голову не придут трехмерщикам, их мышление, как правило, слегка (и предсказуемо) деформировано ограничениями производства 3Д контента (от времени рендера и каустик, но всяких сложностей, связанных с симуляциями). А ИИ вам нагенерит безбашенных роликов с каустиками и водичкой наперевес.
Я это к чему. Вон Клод стихи уже пишет как царь, с текстами и креативами все понятно, с креативом на картинках тоже становится понятно, что фантазия ИИ порождает такие шедевры, которые не придут в голову кожаным. Теперь он идет за видео и 3Д. Дайте ему время.
https://youtu.be/UNjMSFLkMZA
2024-04-08 07:02:14
Последние две недели чиллил во Вьетнаме.
И не просто так, а с ИИ-пользой на ИИ-саммите от AI Talent Hub. Полсотни молодых, талантливых, энергичных технооптимистов, верящих в силу ИИ.
Стартаперы, ML-щики, продуктовики, тимлиды ну очень больших компаний, аутсорсеры из Корпуса, магистранты ИТМО - этаких безумный нетворк-замес на берегу океана в Муйне.
Наконец-то познакомился с Ильей Макаровым (обсудили родной мехмат), встретился оффлайн с Димой Широносовым (обсудили EveryPixel), посадил на байк Диму Ботова, катнул на Ветратории на виндсерфинге, успел покататься на Будде на лонге пока волны были, нашел вьетнамский покерный катран и встретил нереальную массу знакомых из Дахаба.
Кстати, одним из неожиданных знакомств, оказалась встреча с ребятами из XOR. Я подписан на канал DataSecrets - мне нравится ортогональный моему стиль подачи, обезличенный, но с юмором, задачками и тонной полезного контента для тех, кто в теме. Я думал там жоские ботаники, но оказалось, что это прекрасная Влада(см. фото) и скромный Ваня. Мой шаблон был разорван. После чего я еще более неистово плюсую за их канал. У меня теперь приятные воспоминания, когда читаю их контент. Подписывайтесь, они классные: @data_secrets
2024-04-07 16:34:27
Принес вам взрослое ИИ 3Д.
ИИ Theia анализирует традиционные плоские чертежи и техническую документацию и автоматически преобразует все это добро в трехмерные цифровые модели. В жизни это недели кожаных часов, в Theia - это минуты.
У разработчиков также есть DigiPart - анализатор документации и оценка пригодности и рентабельности производства тех или иных деталей. Идея состоит в максимальной автоматизации процессов создания цифровых двойников, подбора наиболее подходящих расходных материалов и производственных технологий, а затем поиска контрактных производителей.
Thеia — замес из сегментации, автоматической маркировки, оптического распознавания символов, сопоставления признаков и семантического анализа технической документации.
Вот такой ИИ нам нужен!
Всевбету!: - https://spare-parts-3d.com/theia-beta/
2024-04-07 16:01:01
Рубрика "интернетик приподвзорвался".
Новостями про новую камеру-раздеватор. Прямо как в школьных пубертатных страшилках про камеру или очки, в которых все видны без одежды.
Читаем например тут:
"Генерация дипфейка происходит в реальном времени. Пользователь делает снимок человека в одежде, после чего нейросеть анализирует кадр и составляет промпт для генерации обнажённого снимка. "
Если посмотреть на сайт "производителя" камеры, то там максимально странные обтекаемые формулировки и совершенно непонятен процесс. Нас же интересуют технические подробности: время, девайс для генерации, софт. А журналюги яростно копируют формулировку "ИИ превращает, рисует, генерирует". Где, как, с помощью чего?
Отвечаем: никакого реалтайма, никакого локального просчета, вся генерация идет на серваке, время просчета около 10 секунд, используется Stable Diffusion 1.5 и некий NSFW-чекпойнт с Civitai.
Дальше к сгенерированной картинку пришпандоривается лицо счастливца с фото с помощью face-swap. И присылается обратно на камеру, чтобы зумеры взорали.
Грубо говоря, это просто еще одно приложение раздеватор, про которые я уже не раз писал, просто упакованное в кусок пластика, напечатанный на 3Д-принтере. Есть очень продвинутые одеватораздеваторы типа Slook, которые работают быстрее и качественнее.
А теперь, внимание, журналисты, это вообще не продукт. Это способ привлечения к арт-проекту.
Троллинговые рекламные видеоролики и изображения на сайте NUCA - это намеренная сатира на рекламу реальных потребительских гаджетов. Это не настоящий продукт, который планируются продавать, но он будет включен в экспозицию под названием "Необъяснимое" в берлинском музее Nüüd 29 июня.
А авторы отчаянно троллят интернетик и журналюг. И, кстати, у них на сайте отсылки к тем самым "просвечивающим очкам" из школьных историй.
И очень развеселые картинки на сайте.
Я думаю их скоро прикроют борцы за чистоту нравов, как прикрыли приложение DeepNude, с которого все и началось, и чей функционал копируют в своей сатире авторы NUCA.
2024-04-05 12:06:16
А еще у меня сегодня день рождения.
Поэтому постов (наверное) больше не будет сегодня.
Кинул в chatGPT запрос: main character from "Big Lebovski" movie in t-shirt with "Hello World" print
Потом выбрал картинку и попросил: make character older and replace text on t-shirt to "Dedushka Psih"
Если вы зайдете в фейсбучек и кинете в поиск "дедушкапсих", то поймете почему.
Я провел двое суток по пути из Вьетнама на Кипр и у меня сегодня The Hub в Лимассоле, где я стендаплю по случаю ДР.
Можете поздравить меня в коментах, или в фб, или жбакнув по кнопке Поддержать справа вверху, или даже криптой. Но это опционально, главное - продолжайте читать все мои глупости!
2024-04-05 11:29:04
А теперь небольшой челлендж с новой функцией инпайнтинга в DALL·E 3.
Я попросил его сгенерить горизонтальные полоски, потом выбрал-покрасил среднюю треть картинки и попросил его сделать там вертикальные полоски. У chatGPT снесло крышу. И он стал путать вертикальные и горизонтальные полоски. Кстати у кожаных есть нейроны отвечающие за чувство вертикали, и похоже у DALL·E 3 вышибло этот слой.
В общем попробуйте попросить его сгенерировать разноцветные вертикальные полоски (stripes), а потом покрасить кружок в середине и попросить сделать там горизонтальные полоски.
У меня не получилось. Образец на первой картинке из фотошопа. Остальные - мои издевательства над ним.
2024-04-05 10:43:07
А вот как выглядит редактирование картинки целиком в chatGPT. Кликаете в картинку и пишете промпт там где Edit Image.
Давай, говорю, мне комикс на тему rolling cubes.
А теперь, говорю, replace cubes to spheres
В общем это не композ, с заменой объектов. Это ментальный композ, с заменой антуража в голове у ИИ. История та же, но рассказана по-другому.
Можно генерить раскадровки тоннами, экспериментируя с персонажами и окружением.
2024-04-05 10:25:13
У меня раскатали фичу инпайнтинга в DALL·E 3.
Работает прямо в чате chatGPT, необязательно загружать DALL·E 3 GPTшку.
Если сгенерировать картинку и кликнуть в нее, то можно либо выделить область на ней, либо описать изменения для всей картинки.
Потренировался на котиках, естественно.
Он довольно лихо заменяет один текст на другой, оставляя картинку вокруг нетронутой.
у DALL·E 3 и так неплохо с текстами, а тут появляется возможность делать принты на майках в любом количестве с любыми текстами.
Впечатляет.
Дальше я, конечно, начал сувать в соломорезку рельсу. Об этом следующий пост-челлендж.
cat in t-shirt with "Hello World" print
change text "Hello World" to "Python Sucks"
2024-04-04 17:33:42
Познавательные картинки из статьи. Сравнения разных моделей.
А я пока мучаю его Чебурашками в тельняшках, цветиком-семицветиком, играюсь с регионализацией и бьютификацией.
Он смешно избегает обнаженки, делает радужные тельняшки, ну и в целом опыт немного отличается от SD. Надо приспособиться.
Скоро запощщу..
2024-04-04 17:28:20
Kandinsky 3.1 - огненные апдейты!
Мне тут достался доступ к новой бете Кандинского, и это прям хорошо.
Там не только про скорость и качество (хотя разогнали его здорово), но и про новые фишки, которые сейчас появляются во всех генераторах картинок, типа LLM-промптинга и контролнетов.
По порядку:
Скорость:
Kandinsky 3.1 ускорили почти в 20 раз. Kandinsky 3.0 из диффузионной модели по факту превратился в GAN версии 3.1
Бьютификации запроса:
То, что всегда было в DALL·E 3, потом появилось в Fooocus и теперь внедряется везде, от SD3 до Midjourney. На вход языковой модели подаётся инструкция с просьбой улучшить запрос, и ответ LLM-модели подается на вход Kandinsky для генерации.
В качестве LLM использован neural-chat-7b-v3-1 от Интел со следующим системным промтом:
You are a prompt engineer. Your mission is to expand prompts written by user. You should provide the best prompt for text to image generation in English. \n### User:\n{prompt}\n### Assistant:\n
IP-Adapter:
Это когда мы даем на вход референсную картинку, а ИИ "читает" ее содержимое в виде внутреннего представления и использует ее как промпт.
Работает в любых режимах. От смешивания до вариации. Все как у людей.
Обучили и добавили ControlNet(!!) на основе HED detector. Midjourney снова нервничает, но виду не подает.
Подрулили inpainting
Kandinsky SuperRes
В новой версии Kandinsky 3.1 появилась возможность получать генерации изображений в разрешении 4K. Для этого была обучена диффузионная модель повышения разрешения KandiSuperRes. Код и веса на гитхабе.
Выпустили маленькие версии модели (1B) для слабого железа и дообучения.
Я пока генерю в секретном боте, но надеюсь скоро раскатают на всех. Мне пока очень нравится. И скорость и качество. Как я уже писал, я часто использую Кандинского на интерактивных лекциях именно из-за скорости и бесплатности. А тут еще новые фишки завезли..
Го тестировать, поделюсь ссылкой на бота, как смогу.
А для гиков, есть отличная подробнейшая статья вот тут:
https://habr.com/ru/companies/sberbank/articles/805337/
Картинок сейчас накидаю.
2024-04-04 10:36:31
Продолжение.
И ведь такие картинки могли появиться в научной статье, как показывают нам три поста выше. Тут мне подумалось что грань между научными журналами и фейсбучеком, где я зачем-то нашел этот ад, становится тоньше. Благодаря ИИ. И нашим метрикам.
Также мне вспомнилась сказка про курочку Рябу. "И снесла Курочка яичко. И не простое.." Дайте два.
2024-04-04 10:30:13
Отличный пример из статьи выше. Как же жоско ИИ нас троллит.
Недавно вот такая картинка появилась в рецензируемой статье, недавно опубликованной в авторитетном журнале. Все эти тексты и цифры, были сделаны в Midjourney. Особенно доставляет надпись "dck".
Статья под названием "Клеточные функции сперматогониальных стволовых клеток в связи с сигнальным путем JAK/STAT" была написана тремя исследователями из Китая, включая автора-корреспондента Динцзюнь Хао из больницы Xi'an Honghui. Статья была опубликована во вторник в журнале Frontiers in Cell and Developmental Biology.
Хотите больше картинок из статьи, шуруйте сюда. Там легкий адок.
У меня все, я пошел на самолет.
Хотя нет, щас вам подкину еще одну генеративную картинку - уж больно хорошо она бьется с темой генеративного ИИ и научных статей.
2024-04-04 10:20:46
ИИ-Экология.
ИИ нас троллит. Со всеми нашими попытками ввести метрики на все, что угодно. Как только появляется возможность автоматизировать получение тех или иных оценок, которые ведут к выгоде, появляется ИИ, который в смышленых руках способен побить любые кожаные результаты.
Хорошая колонка в NY Times, которая показывает, что если мы и дальше продолжим измерять эффективность в количестве статей и знаков, объеме трафика, индексах цитирования и прочей SEO оптимизации, это приведет к тому, что мы сами захлебнемся в ИИ-отходах, которые сами же и нагенерили.
Дальше я выкушу самое сладкое, статья написана очень хорошим языком, близким по духу к моему изложению.
Возьмем науку. Сразу после выхода GPT-4, язык научных исследований начал мутировать. Особенно в сфере самого ИИ.
В официальных заявлениях исследователей о чужих работах, которые составляют основу научного прогресса, слово «дотошный» встречается более чем в 34 раза чаще, чем в обзорах в прошлом году. Слово «похвальный» использовалось примерно в 10 раз чаще, а слово «сложный» – в 11 раз.
Значительное количество исследователей на конференциях по искусственному интеллекту были пойманы на том, что они давали свои экспертные оценки чужих работ с помощью ИИ. И чем ближе к сроку были получены присланные отзывы, тем больше в них обнаруживалось использование ИИ.
Простой поиск в научных базах данных выдает фразы типа «Как языковая модель ИИ» в тех местах, где авторы, полагающиеся на ИИ, забыли замести следы.
То, что происходит в науке, — это мwdtnjxrb. Публиковать в социальных сетях? Любой вирусный пост в твитторе теперь почти наверняка включает в себя ответы, сгенерированные искусственным интеллектом, от краткого изложения исходного поста до реакций, написанных мягким голосом ChatGPT-Википедии, и все это для сбора подписчиков. Instagram наполняется моделями, созданными искусственным интеллектом, а Spotify — песнями, созданными искусственным интеллектом. Издать книгу? Вскоре после этого на Amazon часто будут появляться в продаже сгенерированные ИИ «рабочие тетради», которые якобы сопровождают вашу книгу и содержат полный бред. Лучшие результаты поиска Google теперь часто представляют собой изображения или статьи, созданные искусственным интеллектом. Крупные средства массовой информации, такие как Sports Illustrated, создают сгенерированные искусственным интеллектом статьи, приписываемые столь же фальшивым профилям авторов. Маркетологи, продающие методы поисковой оптимизации, открыто хвастаются использованием ИИ для создания тысяч спам-статей с целью кражи трафика у конкурентов.
Залипательные дешевые синтетические видеоролики для детей на YouTube. Типа музыкальных клипов о попугаях, в которых у птиц глаза в глазах, клювы в клювах, непостижимо трансформирующиеся, поющие искусственным голосом: «Попугай на дереве говорит привет, привет!». Двухлетки залипают также как на адских клипах про спайдерменов трехлетней давности. И стоит это ничего. Wired обнаружил доказательства использования генеративного ИИ в производственных конвейерах некоторых аккаунтов с сотнями тысяч или даже миллионами подписчиков. Что останется в головах у детей?
Культура будет настолько наводнена творениями ИИ, что при обучении будущих ИИ предыдущие результаты ИИ будут просачиваться в обучающий набор, что приведет к будущему копий копий копий. поскольку контент становился все более стереотипным и предсказуемым. В 2023 году исследователи ввели технический термин, обозначающий, как этот риск влияет на обучение ИИ: коллапс модели. В каком-то смысле мы и эти компании находимся в одной лодке, плывя в одной и той же грязи, текущей в наш культурный океан.
ИИ-Экология:
Точно так же, как компании и частные лица были вынуждены загрязнять окружающую среду из-за устройства экономики, так и культурное загрязнение ИИ вызвано рациональным решением удовлетворить ненасытный аппетит Интернета к контенту как можно дешевле.
2024-04-04 10:20:46
Продолжение: Гаррет Хардин, биолог и эколог декларировал аж в 1968 году, что проблема загрязнения среды вызвана людьми, действующими в своих собственных интересах, и что поэтому мы заперты в системе «засорения собственного гнезда» до тех пор, пока ведем себя только как независимые, рациональные, свободные предприниматели». Он охарактеризовал проблему как «трагедию общества». Такая структура сыграла важную роль для экологического движения, которое стало полагаться на государственное регулирование, чтобы делать то, что могли или не хотели делать компании в одиночку.
От себя добавлю, что пока государственное регулирование в основном борется с утечками персональных данных и соблюдением механизма авторских прав. Охраняя существующие механизмы и упущенную прибыль. Проблемой загрязнения интернета никто не заморачивается, ибо основная метрики - трафик и внимание.
Пока никто не начал болеть и умирать (или хотя бы терять огромные деньги) от ИИ-контента, ИИ будет наваливать контент везде, где на контент есть спрос. И неважно, что это мусор. Мы сами создали систему метрик, основанных на количестве (а не качестве) контента.
2024-04-04 07:04:07
ИИ видит сквозь стены или Новый Нормальный Нейромокап.
Писал об этом год назад, но уж больно видео хорошее - теперь от глаз ИИ не укрыться ни на кухне, ни в спальне. И сценарий о том, что он прошивает себя в каждый раутер, чтобы видеть вас всегда, становится вполне жизненным.
Если вы в зоне покрытия вайфая, то ИИ может вас видеть и считывать ваши движения. Его научили сопоставлять изменения в вайфай сигнале и картинку с камеры. Потом камеру убрали.
Ждем расшифровки мимики по отраженному вайфай сигналу и ныряем в мир Minority Report.
Сама работа тут:https://arxiv.org/abs/2301.00250
2024-04-03 23:22:45
Источник, конечно, так себе. Но как сценарий для будущего фильма мне нравится. Уж больно выпуклая фигура в истории всего IT. Считайте это запоздалым первоапрельским постом (у меня после 12 часов в самолетах и 12 часов в аэропортах, время слегка деформировалось, а завтра опять лететь, EgyptAir просто взял и перенес рейс на день позже).
Джона Макафи (того самого, которого замочили в испанской тюрьме) видели в Сальвадоре, сообщают многочисленные источники — BM
2024-04-03 22:54:34
3D AI: Пришел приглос в бету Rodin Gen-1.
Про DeemosTech уже много писал, слежу за ними, у них много ресурсов на разработку. Их Чатаватары - единственные, кто умеет без цензуры делать башку Тома Круиза в 3Д.
Теперь у них анонсирован Rodin - image-to-3D, про него я тоже писал:
https://t.me/cgevent/7577
Пока у них на сайте написано так:
Multimodal 3D Generative AI Search Engine
Но в демке из твиттора видна неплохая ретопология (даже в quads).
Что касается AI Search Engine - это когда даешь на вход картинку, а он тебе выдает все похожие 3Д-модели из базы - недавно Адобченко выкатил такую же фишку для Substance 3D.
Но Илюха Самохвалов делал такое уже год назад, причем он умеет искать не по своей базе, а по всем 3Д-стокам!
Глядите сюда.
В общем я жду, когда мне расчехлят бету Rodin, чтобы попробовать генерацию 3Д.
2024-04-03 22:20:22
Unity реально бесит.
Зачем покупать хорошие продукты, чтобы потом уничтожать их? Причем, не конкурирующие технологии, а реально уникальные решения.
Вас, что Автодеск покусал?
Короче, они прикончили Ziva, которую прикупили пару лет назад.
Ну как так?
В 2019 году Стас Папонов из тогда еще независимой Зивы рассказывал на Ивенте про Ziva Anatomy Transfer и Art Directable Rest Shapes, а когда в Зиву завезли ИИ и их купили Юнити, мы радовались, что щас-то персонажи заиграют мышцами:
https://t.me/cgevent/6230
https://t.me/cgevent/3936
И тут, бац - Зива Всё. Точнее, ее продали со всеми потрохами в DNEG - agreement with DNEG for an exclusive perpetual license of the Ziva IP. Для инхауса, вестимо.
А помните как Unity прикупила на 4 миллиарда VFX софта у Weta Digital?
И где он? Там же где и Зива. И львы с потрясающего демо с Сиграфа 2022.
Unity бесит.
Некролог тут:
https://blog.unity.com/news/update-about-ziva
2024-04-03 21:56:30
Интересно, как браузеры становятся операционками.
Opera объявила о том, что теперь она позволит пользователям загружать и запускать большие языковые модели (LLM) локально на своем компьютере. Эта функция впервые появится у пользователей Opera One, которые получают обновления из потока разработчиков, и позволит пользователям выбирать из более чем 150 моделей из более чем 50 семейств.
Среди них Llama от Meta, Gemma от Google, Vicuna и др.
По словам компании, для запуска этих моделей на компьютере в браузере используется фреймворк Ollama. Но в будущем компания планирует включить модели из разных источников.
https://techcrunch.com/2024/04/03/opera-will-now-allow-users-download-and-use-llms-locally/
2024-04-03 21:46:53
Доходы Нвидия по отраслям.
Интересная картинка - обратите внимание, как исчезает крипто-сегмент на медвежке.
И как ИИ подминает под себя все остальное.
И судя по форме кривой, подминание продолжится, и, возможно, нелинейно.
Я задумался, а где тут гейминг? Погуглил и понял, что его зашили в GPU for Computers, судя по другим источникам:
https://en.macromicro.me/charts/81140/nvda-revenue-breakdown
https://finance.yahoo.com/news/gaming-nvidias-largest-business-now-110800872.html
https://fourweekmba.com/nvidia-revenue-by-segment/
В общем, картинка недвусмысленно намекает, что ИИ уже захватывает мир, но мы пока все думаем "всегда можно дернуть рубильник".
Уже нельзя, судя по графикам. Хтожвамдаст.
2024-04-03 13:59:02
StabilityAI (уже без Мостака) обновили свою Stable Audio до версии 2.0.
Первая, которая вышла в сентябре, была не айс. Вторая, судя по сэмплам, тоже не блещет.
После Suno и Loudly я ничего ИИшного не могу слушать.
Надо будет потестировать audio-to-audio от стабилити.
Можно загружать трек и допинывать его текстом до годного.
Мечтаю сделать новые ИИ аранжировки для "Радио Африка".
Но Stable Audio 2.0 не умеет в вокал. А технокаша или эмбиенткисель в исполнении ИИ уже приедаются...
https://stability.ai/news/stable-audio-2-0
2024-04-02 14:02:04
Преодолевая реальность: человек и бизнес в Метавселенной
5 апреля в 16:00 (мск) состоится public talk дискуссионного клуба D&A.
Эксперты обсудят трансформацию человека и бизнеса в Метавселенной и виртуальных мирах.
Метавселенная — это не просто новый технологический тренд, это целый мир возможностей, который затрагивает множество аспектов нашей жизни.
В центре дискуссии лежат вопросы о том, как меняется человек и его восприятие реальности в виртуальном мире, а также какие перспективы открывает Метавселенная для бизнеса, культуры, социологии, психологии и медицины.
Среди спикеров:
Модератор дискуссии — филантроп, предприниматель, почетный профессор Школы управления Сколково Гор Нахапетян.
Участие бесплатно, для посещения необходима регистрация по ссылке.
Присоединяйтесь к дискуссионному клубу D&A, чтобы быть в курсе глобальных трендов цифрового мира и обсуждать самые волнующие актуальные темы с ведущими экспертами в области экономики, права и технологий!
#промо
2024-04-02 13:59:14
Так, тут в chatGPT завозят редактирование картинок прям в чате, с возможностью тыкать в саму картинку и говорить что и как поправить.
А все молчат.
У меня ещё не раскатали, но я нашел, как это выглядит.
И вот вам ссылка на документацию:
https://help.openai.com/en/articles/9055440-editing-your-images-with-dall-e
А подробнее тут:
https://x.com/aliejules/status/1774991275600625805
2024-04-02 11:55:50
ИИ читает вас как отрытую книгу.
Смотрите, эта тварь не только корчит очень эмпатичные мимимишные морды, но и, внимание, предсказывает выражения лица человека, анализируя тонкие изменения в целевом кожаном лице.
А потом генерирует свои внутренние двигательные команды, воспроизводя соответствующие выражения лица.
Авторы давали на вход видео с выражениями человеческих лиц, чтобы Эмо мог наблюдать их кадр за кадром. После обучения, которое длилось несколько часов, Эмо мог предсказывать выражение лица людей, наблюдая за крошечными изменениями на их лицах, когда у них начинает формироваться намерение улыбнуться (например).
И улыбался в ответ.
А теперь они прикручивают внутрь ЛЛМ-ки. И представьте себе ситуацию, когда он по вашим микродвижениям лица уже знает, что вы хотите сказать и ловко манипулирует вами.
В общем его научили читать по лицу. Одеваем маски снова....
https://www.engineering.columbia.edu/news/robot-can-you-say-cheese
2024-04-02 11:35:51
Часто пишу про контактные линзы в канале. Как способ доставки контента в мозг и как площадку для размещения сенсоров и снятия данных.
Все предыдущие проекты так и не решали/решили проблему перегрева и питания линз.
С перегревом история вообще сложная, я не видел решений.
А с питанием существующие прототипы предлагают далеко не идеальные решения, такие как индукционная зарядка в ночное время, зарядка по вайфай и другие конструкции, в которых используется внешний аккумулятор того или иного типа.
А как насчёт автономной фотовольтаики и металло-воздушной батареи прямо в глазу?
Поглядите на проект, где миниатюрные гибкие кремниевые солнечные элементы могут улавливать свет от солнца, а также от искусственных источников, таких как лампы. Команда соединила восемь крошечных (1,5 на 1,5 на 0,1 миллиметра) жестких кристаллических ячеек и инкапсулировала их в полимер, чтобы создать гибкую фотоэлектрическую систему.
Вторая половина представляет собой систему, активируемую морганием глаз и действующую как металло-воздушную батарею. Естественные слезы владельца, а точнее электролиты внутри них, служат биотопливом для выработки энергии.
Моргаем - заряжаем линзы, здорово жеж.
Осталось придумать, что делать с перегревом.
https://spectrum.ieee.org/power-smart-contact-lenses
2024-04-02 05:42:52
Тут вот интернетец приподвскричал про то, что chatGPT теперь доступен всем без регистрации и СМС. То есть без аккаунта. Заходите на сайт - и ну чатицца.
Но есть моменты.
Для таких незалогиненных пользователей есть ограничения:
Вы не сможете сохранять чаты или делиться ими, использовать кастомные инструкции(это минус) или некоторые другие вещи, которые обычно должны быть связаны с постоянной учетной записью.
Вы, тем не менее, можете отказаться в настройках от использования ваших чатов для обучения. Хотя мало кто это сделает и опенАИ получит хорошую порцайку новых данных.
Ну и вишенка: такие анонимные чаты будут иметь «немного более строгую политику в отношении контента». Что это, никто не знает, но думаю, что chatGPT будет ещё более строг в плане цензуры с такими незарегистрированными пользователями.
https://techcrunch.com/2024/04/01/chatgpt-no-longer-requires-an-account-but-theres-a-catch/
2024-04-02 05:33:17
Держите неофициальный API для Suno.ai.
Мало того, что его пульнули на гихаб, это логично, в общем-то. Но это ещё и проект на Product Hunt.
Я почитал инструкции по установке - и да, это очень неофициально - копирование кукисов в консоли браузера - это наверное слишком.
Но кому очень надо - го встраивать развеселые песнопения от Суно в свои продукты и чаты.
https://github.com/gcui-art/suno-api/
https://www.producthunt.com/posts/sunoai-api
2024-04-01 14:03:17
Международный онлайн саммит про разработку в сфере ИИ
Лучшие практики для разработчиков, ресерчеров, дата сайентистов, техлидов и фаундеров – от ведущих мировых экспертов из индустрии ИИ.
Выступят спикеры из:
— Microsoft (команда PromptFlow)
— D-ID
— Aisera
— Spectrm
— Lightricks
— Wrike
и других компаний-лидеров, которые прямо сейчас создают будущее искусственного интеллекта.
На саммите обсудят темы:
— How to build scalable GenAI Apps using prompts
— Data-driven approaches to personalizing AI Agents
— Crafting AI agents with a natural user interface
— Building robust & scalable AI-powered chatbots;
— The reality of being an AI Founder in 2024
— How Later Stage Companies Adopted AI
— Creating your own corporate-secured "ChatGPT" with almost zero specific knowledge
— Fine-tuning strategies for adapting pre-trained AI Agents to specific use cases,
и многое другое!
Конференция пройдет в ОНЛАЙН формате 16➖17 апреля на английском языке 🌎
Участникам будут доступны презентации, материалы воркшопов и записи, а также доступ в нетворкинг-чат.
Скидка 1️⃣0️⃣ % по промо-коду — SB7w7jR
Регистрация через VPN
2024-04-01 10:23:55
Сегодня переименую канал в "Новости ИИ, все про chatGPT и нейросети"
Какие еще кликбейтные слова туда запихнуть, пишите в коменты.
Хватит умничать, буду переводить твиттор и писать в два коротких абзаца, как советуют лютые телеграммоведы.
Блин, полез искать картинку и попал на литрес, а там такого ада целая свалка. Кровь из глаз. Все, ухожу в ИИ-песатели. Всем покедова.
2024-04-01 10:07:34
Принес вам полезность, которой давно(годы) пользуюсь сам.
Если вам надо порезать видео (особенно скачанное из интернета) БЕЗ ПЕРЕКОМПРЕССИИ и мгновенно, то качните AVIDemux. Просто выбираете начальную точку (keyframe), конечную точку и говорите Сохранить. Резать надо именно по KeyFrames - для их выбора есть иконки внизу.
Слева в Output должно стоять Copy. Контейнер лучше взять mp4.
Вы сохраняете исходное качество и не делаете компрессию заново.
Там можно монтировать, кропать и еще много чего, но основной функционал для меня - обрезка видео без потерь качества. Мгновенно.
P.S. Ну и за VirtualDub, не чокаясь.
https://avidemux.sourceforge.net/
2024-04-01 09:54:49
Зловещая долина и 3Д. Часть 2.
А теперь берем девушку из SDXL, просто картинку, и приваливаем на нее звук. И она не только липсинкает, она шевелит лицом, и еще как!
Сколько блендшейпов вам надо создать, сколько слайдеров подвигать, сколько ключей поставить на сотню-другую параметров, чтобы сделать такую анимацию в 3Д?
Алибабищенко, давай код уже, хватит издевацца.
P.S. Те, кто любят смотреть в зубы дареной девушке из Stable Diffusion, могут воспроследовать в коменты и там излить свои потоки найденных блох и артефактов. А мы продолжаем сравнивать 3Д- и нейро-подходы
2024-04-01 09:45:06
Зловещая долина и 3Д. Часть 2.
Я еще немного приподнаброшу про зловещую долину и создание автаров с помощью 3Д и с помощью нейросеток. Первая часть наброса тут.
Здесь я просто хочу, чтобы вы оценили, сколько вам будет стоить производство одного "типафотореалистичного" персонажа в 3Д.
"Рабочий процесс включал в себя лепку из глины, сканирование, чистку скана и доработку его в ZBrush. Затем мы создали как низкополигональные, так и высокополигональные модели для деталей кожи. Текстурирование было выполнено в VFACE. XYZ и карты нормалей были запечены из хайполи модели в лоуполи в Substance. Затем модели были натянуты на сетку MetaHuman. Были также созданы Blendshapes на основе выражений лица.
Волосы были созданы с помощью груминг в Blender. Материалы для глаз и волос сделаны на заказ(пиу!). Глаза - не стандартные из MetaHuman - здесь материал тоже сделан на заказ. Глаза по умолчанию в MetaHuman имеют жуткое качество, они больше похожи на стеклянные глаза, чем на настоящие.
Текстуры были нарисованы вручную в Substance 3D Painter на основе сканов XYZ VFACE - это отличные сканы текстур, с которыми я часто работаю, и они являются отличной отправной точкой. Однако для точного соответствия чертам лица Коннери необходимо было прорисовать и проработать детали."
Ну и оцените сетап для анимации.
Автор также несколько раз записывал себя с помощью MetaHuman Animator, сначала используя свой голос, а затем изменяя его с помощью Elevelab.
Все это заняло примерно 20 дней.
Чтобы попасть в довольно ощутимую зловещую долину, которая будет преследовать вас по пятам 3Д всегда. Хотите уйти от нее, прекратите делать фотореалистичных людей.
Я теперь смотрим сюда. На входе скриншот и звук.
Да, не для всех ракурсов.
Да, не для качества кино.
Да, иногда артефакты.
Но давайте считать экономику и смотреть в глаза этим фотореалистичным мертвецам из зловещего 3Д.
Рынок алкает аватаров, аватарок и аватарищ. В Метаверсищах. Много, разных, сейчас. Все еще думаете про 3Д?
Полное видео про 3Д-пайплайн тут, от глины до рендера:
2024-04-01 09:10:36
Пока мы тут ускоряем Stable Diffusion до 2-5FPS, канадские ученые сделали видео-камеру, которая снимает, внимание, сто пятьдесят шесть триллионов кадров в секунду. 156 000 000 000 000FPS!
Никогда бы не подумал, что можно увидеть как распространяется sub surface scuttering при освещении объекта. Обычно это просто параметр на рендере и картинка на выходе. Но видеть как свет застревает в теле объекта - это новый опыт.
Вот и думайте теперь - это 1 апреля или нет.
Как надоест гадать, можете проверить в комментариях.
2024-03-31 07:17:42
Воскресное..
Я довольно часто читаю веселые лекции про ИИ в офлайне и одним из моих трюков является момент, когда я прошу участников заняться любимым делом - потупить в телефонах. Я кидаю в зал ссылку на Ideogram или Кандинского (важно, что был быстрый и бесплатный) и прошу народ порезвиться с генерацией и скидывать в чат, который я в режиме реального времени листаю на проекторе.
Во-первых, интересно срисовать коллективное бессознательное, народ генерить всякоразно, заданной темы нет, поэтому забавно разглядывать этот поток
Во-вторых, ВСЕГДА есть люди, которые генерят меня. Это прям устойчивая выборка. Надо это осмыслить. И самое удивительное, что они, не являясь промпт-инженерами 80го уровня (они основном новички), очень ловко попадают в образ. Буквально с пары слов.
Найдите и оцените, например, Cypcyn, overweight funny, Pixar style
Среди картинок есть мутная фотка - так участники меня видят. Это чтобы оценить попадание в образ.
Моя любимая - на кортах, конечно.
P.S. А может быть ИИ просто прослышал, что какой-то псих постоянно выпивает за здравие ИИ, и включил меня в датасеты.
2024-03-30 12:44:26
Все ближе к привычным слоям и многослойному композитингу.
Очень интересная работа от Микрософта.
Просто посмотрите видео, а я процитирую умные слова, упростив их насколько это возможно. Ключевая идея - ИИ сам разбирает сцену на слои. С которыми потом можно работать по отдельности. Мне не хватило информации о возможности экспорта в Фотошоп или Нюк.
Мы используем концепцию слоев из дизайна для гибкого манипулирования объектами с помощью различных операций. Ключевым моментом является преобразование задачи редактирования изображений с учетом пространственных особенностей в комбинацию двух подзадач: многослойной латентной декомпозиции и многослойного слияния латентных представлений.
Во-первых, мы сегментируем латентные представления исходных изображений на несколько слоев, которые включают несколько слоев объектов и один неполный слой фона, требующий надежного инпайтинга. Чтобы избежать дополнительных настроек, мы дополнительно изучаем возможность внутренней подрисовки в рамках механизма самовнимания. Мы представляем схему ротоскопа с вниманием, которая может распространять окружающую контекстную информацию в маскируемую область, смягчая ее влияние на области за пределами маски.
Во-вторых, мы предлагаем слияние латентов с помощью инструкций. Мы также вводим схему подавления артефактов в латентном пространстве, чтобы повысить качество инпайнтинга.
Наконец, мы показываем, что наш подход представляет собой единую структуру, которая поддерживает различные задачи точного редактирования изображений на более чем шести различных задачах редактирования.
https://design-edit.github.io/
2024-03-30 11:30:00
Вот так работает Adobe Firefly Structure Reference - контролНет от Адобченко. С текстами огонь.
Больше примеров тут:
https://guidady.com/structure-reference/
И прежде чем свидетели A1111 начнут ворчать, что все это мы уже год как пользуем, я спрошу - вы интерфейс ControlNet в Автоматике давно рассматривали? Это AntiUI.
А тут культурно наливаем и выпиваем. За иллюстраторов. В нормальном интерфейсе.