Метаверсище и ИИще страница 7. Показано 50 статей из 557
2024-02-08 13:27:01
ИИ-видео-новеллы.
Народ в интернете, тем не менее, основательно упарывается в ИИ-видео.
Как я уже писал тут - основная фишка этих видео - картинка из Midjourney. Именно она будет цеплят глаз. Не ваша гениальная работа с камерой или анимация в кадре (их нет в принципе). А легкий шевеляж картинки с очень хорошим визуальным контентом.
Помните лет 20 назад появились презентации и видосы, где фотки плавно зумировались и плавали в кадре.
Сейчас примерно также, только наряднее - ибо в кадре не фотки, а картинки из Midjourney и анимация камеры, чуть более ловкая, с шевеляжем фонов и параллаксами.
А еще помните лет несколько назад в мобайле взлетели "визуальные новеллы" - эдакие адовые истории в картинках (реинкарнация диафильмов), рассказанные под музыку или нарратив.
И то, что мы сейчас наблюдаем в интернетике, это те самые новеллы с эффектом параллакса и рандомными медленными движениями в кадре.
Картинка и нарратив - основа. В принципе можно было рассказать историю в шапке без анимации камеры, на одних картинках. Но пока есть эффект новизны - будет пользоваться успехом, как те самые плавающие фотки на видосах из прошлого. А когда надоест, придется подумать, где взять очередную новизну.
К тому времени ИИ что-то придумает...
2024-02-08 13:06:11
Погонял Stable Video Diffusion XT локально.
На A100, конечно, сладко. 4 секунды генерятся 20 секунд. Уже можно экспериментировать.
Не хватает X/Y/Z, чтобы ставить все в очередь - документации нет, труднопроизносимые параметры повсюду, только метод тыка и пристального взгляда.
Больше 4 секунд сгенерить в принципе ничего невозможно, либо закипает как в дефорумных видосах, либо разваливается. Контроля никакого, только эксперименты типа "а что будет если вот так".
Поменял разрешение - все разъезжается. Задрал fps - закипело. Все как с первыми картинками в Stable Diffusion.
Щас напишу еще про ИИ-видео.
Пишите про ваши уловки в коментах.
2024-02-08 12:46:07
Stable Diffusion WebUI Forge
Тут вчера вышел полностью переписанный Automatic1111. Сделал это никто иной как Лвмин Жанг, автор ControlNet и Fooocus.
Просто взял и переписал этого монстра с целью оптимизации просчета на картах с небольшим количеством памяти. Веб-морда и привычный ацкий интерфейс остались на месте. Грубо говоря, он взял наработки из Фокуса по оптимизации просчета и вструмил их вместо ядра автоматика.
И теперь бодрый легкий автоматик заводится на картах типа 1060 и считает на них модели ветки SDXL, а полторашка там просто летает.
Обещана поддержка всех экстеншенов (есть некоторое визги по этому поводу на гитхабе - кое-что отваливается, кое-что (AnimDiff) в работе).
Более того, для нормальных людей есть просто однокнопочный инсталлер (скачиваешь архив, распаковываешь в папку, запускаешь update, потом run).
Это не решает проблему адового интерфейса Автоматика (да и Фокуса), но у меня все работает как будто я обновил комп - быстро, без тормозов.
Я напишу результаты тестов, он реально быстрее старого Автоматика, но не поддерживает оптимизацию sdp для карт с конским количеством памяти типа A100.
И самое приколькое оказалось, что туда уже нативно добавлена поддержка Stable Video Diffusion и Z123 от StabilityAI. Просто отдельные закладки. И даже можно генерить видосы у себя на лаптопе на карте с 8Гб видео-памяти.
Ну и там в интерфейс "прочищен", появились просто удобные легкие элементы, типа выключателя Refiner. Также там наворотили новых кунштюков в ControlNet, но это тема для отдельного поста.
А пока вот так.
Если вы используете обычный GPU, например 8GB vram, вы можете рассчитывать на 30~45% увеличение скорости вывода (it/s)
Для малохольного GPU, например с 6 Гбайт, вы можете рассчитывать на 60-75 % увеличение скорости
Для 4090 с 24 ГБ памяти, вы можете рассчитывать на 3~6% увеличение скорости
Если вы используете ControlNet для SDXL, максимальное количество ControlNetов увеличится примерно в 2 раза, скорость с SDXL+ControlNet увеличится примерно на 30~45%.
Забирайте отсюда
2024-02-08 12:05:45
Вчера писал про идею для стартапа для удаления лыжных масок с лиц зомби.
В принципе на уровне плашечек и с помощью разговора по фейстайму это уже можно сделать прямо сейчас.
Смотрите, двое чуваков в одной комнате звонят друг другу и прислоняют окошко с аватаром к голове собеседника.
Вытеснение
2024-02-07 14:12:41
Экспертный совет для картинок. Stable Diffusion Mixture of Experts
Помните недавно вышел Микстраль 8x7B, построенный на концепции Mixture of Experts. Там внутри как бы несколько LLM(экспертов) и раутер, которые решает, кому лучше отдать решение задачи-запроса, пришедшего от пользователя. Обычно промпт отдается двум экспертам, которых выбрал раутер, и они уже хлещутся друг с другом о том, как лучше ответить на входящий промпт.
А теперь представьте такое же, только для картинок!
Ну и встречайте: SegMoE: Segmind Mixture Of Diffusion Experts
Если кратко.
Модели SegMoE имеют ту же архитектуру, что и Stable Diffusion. Как и в Mixtral 8x7b, модель SegMoE представляет собой несколько моделей в одной. Это происходит за счет замены некоторых слоев Feed-Forward на разреженный слой MoE. Слой MoE содержит сеть маршрутизаторов для выбора экспертов, которые обрабатывают токены наиболее эффективно. Вы можете использовать пакет segmoe для создания собственных моделей MoE!
https://huggingface.co/blog/segmoe#what-is-segmoe
Господа Гупта, Вишну и Прабхала сотворили настоящую камасутру для генерации картинок - смотрите прмеры на сайте. И давайте погадаем, сколько видеопамяти понадобится для такой оргии диффузионных агентов.
Ну круто же. Даете промпт, а там под ковром начинается возня, кто и как сделает именно вашу картинку. Можете устраивать баттлы из чекпойнтов. Можно подгружать туда свои чекпойнты.
Код? Апажалста:
https://github.com/segmind/segmoe
Не верите, что это работает? Глядите сюда:
https://www.youtube.com/watch?v=6Q4BJOcvwGE
Не терпится попробовать без питонинга? Уже есть имплементейшен для ComfyUI:
https://github.com/ZHO-ZHO-ZHO/ComfyUI-SegMoE
2024-02-07 13:58:58
Кстати, вот вам идея для стартапа.
Тренируете нейросетку снимать лыжную маску с головый пользователя Apple Vision Pro.
Ну то есть когда вы надели на голову эту байду и смотрите на соседа, который тоже в метаверсике от эппле, то нейросетка вам дает картинку его реального лица без маски.
И все делают вид, что эта байда на голове никому не мешает. И вообще ее нет. А есть только spatial computing.
По идее задача несложная, по идее у Эппле уже есть Face-ID и трехмерный скан личика. Это прям помогатор при тренировке нейросеточки.
Только как быть всем остальным, которые не могут развидеть этих машущих руками зомбаков на улицах и у себя на кухне?
2024-02-07 13:17:01
Сегодня все тестируем новую игрушку от Эппле. Редактирование фоток инструкциями, типа удали эти кожаные объекты за заднем плане и поставь туда роботов.
Guiding Instruction-based Image Editing
via Multimodal Large Language Models
Тема не новая, таких проектов уже много, но китайские товарищи просто взяли и пристегнули к распознаванию исходных картинок опен-сорсную мультимодальную LLaVA и потренировали ее помогать распознавать объекты на картинках.
Сам проект тут:
https://mllm-ie.github.io/
https://github.com/apple/ml-mgie
Но демо на Хаггинг фейсе лежит намертво, точнее надо ждать 5 минут, поэтому я вам принес ссылку на другой серверок, где это крутится очень быстро (3-5 сек у меня).
http://128.111.41.13:7122/
Ну и я конечно сразу засунул в соломорезку рельсу - дал ему свою фотку и попросил снять очки.
Ваши тесты присылайте в коменты: даете картинку и пишете, что надо с ней сделать. Словесный композ.
Кстати, справа внизу будет развернутая инструкция - это то, во что превращает ваши неуклюжие команды большая языковая модель. Тут принцип такой же как с генерацией картинок в chatGPT - ваш промпт превращается в развернутый промпт, которые модель использует для работы с картинкой
2024-02-07 12:20:17
По поводу ИИ-видео. И Stable Video Diffusion 1.1
Основная масса убойных примеров в таких видео - это движение камеры. Панорамирование, зумчик, минимальные углы облета и косоватый параллакс.
Ну и в самых выразительных примерах, как правило, решает сама картинка, а не анимация (которой по сути нет). Объекты в кадре сами по себе двигаются вяло. Собранные ролики обычно кишат движением камеры и слоу мошенами объектов.
Поэтому если уж вы собираетесь поразить всех своими ИИ-видео, упарывайтесь в картинку, из которой будете делать ИИ-видео. Именно она будет цеплять зрителя. В операторское мастерство и в камеру вы все равно не умеете, а если вдруг умеете, то обнаружите, что не можете сделать почти ничего, что хотите.
Вот вам пример: картинка генерится в Midjourney, причем сочная, с деталями и с объемом, который будет подчеркивать движение камеры (внутренность объекта), а потом кормится в Stable Video Diffusion 1.1
И основная фишка Stable Video Diffusion - это не motion contol, а хорошее качество картинки, которое можно выпячивать с помощью Midjourney
2024-02-06 15:59:39
Дифтун
Так, выпить за аниматоров захотелось все больше.
Смотрите, это уже очень хороший тун-шейдер.
Потому что разработчики уперлись именно в toon-style.
Я в шоке.
Кому-то удалось поставить это хозяйство?
https://ecnu-cilab.github.io/DiffutoonProjectPage/
2024-02-06 15:41:07
AnimateLCM - это огонь.
На сайте проекта полно анимаций сделанных с помощью четырех шагов.
LCM или LCM-LoRA - это метод ускорения Stable Diffusion, который позволяет ускорить просчет как бы в 10 раз, сохраняя (как-то) качество изображения.
LCM-поддержка картинок есть уже и в Автоматике и в Фокусе(Extreme Speed).
И вот только что подвезли поддержку генерации анимации AnimateLCM в ComfyUI:
Забирайте все ссылки вот отсюда:
https://www.reddit.com/r/StableDiffusion/comments/1ajjx4t/animatelcm_support_for_comfyui_just_dropped/
Много примеров тут:
https://animatelcm.github.io/
Код тут:
https://github.com/G-U-N/AnimateLCM
Даже демо есть, можете сами попробовать:
https://huggingface.co/spaces/wangfuyun/AnimateLCM
Ну и поглядите в шапку, не пора ли приподналить за анимацию?
2024-02-06 14:06:48
Houdini + Stable Diffusion
Принес годноты для CG-взрослых.
Симуляция в Гудини, нейрорендер в Stable Diffusion (Комфи+КонтролНет).
В Гудини генерятся частицы, маска и глубина, потом все это забирается в Stable Diffusion и кормится в ControlNet и Animatediff.
Вот такой нейрорендер нам нужен!
Более того, держите:
Подробный тутор, где все это расписано.
Канал этого удивительного чувака, который скрещивает 3Д и нейрорендеринг.
И клондайк из разных полезных постов для тех, кто в кино и VFX.
Enjoy CG-Bros.
P.S. Представьте, лукдев теперь это текстовый промпт и выбор чекпойнта (утрирую, конечно).
2024-02-06 12:18:03
У нас с вами новый челлендж.
Лента Мёбиуса.
Пытаемся сгенерить в чем угодно.
И тут мы обнаруживаем, что это тот случай, когда "руками" через промпт типа "кольцо из бумажной полоски, где один конец перевернули перед склеиванием" сделать это сложновато, скажем так.
И модель должна просто знать про старика Мёбиуса.
Но вопрос в том, как она его "видит".
Я попробовал везде, кроме Midjourney.
Как ни странно, ближе всего был Кандинский. DALL·E 3 и Stable Diffusion путались в бумажном серпантине.
Хотя chatGPT писал идеальные промпты для себя самого:
Illustrate a ring made from a strip of paper where one end has been twisted before being glued together. This should create a simple paper loop with a single 180-degree twist, characteristic of a Möbius strip. The paper's texture should be visible, emphasizing the craft and handmade quality of the loop. The illustration should focus on the twist point, showing how the paper seamlessly connects to form a continuous surface with a unique one-sided and one-edged property. Set against a soft, neutral background, the image should highlight the elegance and simplicity of this mathematical curiosity
Я присунул этот промпт в Фокус и в режиме Extreme Speed нагенерил странных оптических иллюзий, некоторые разламывали мозг, но все равно это не классические ленты Мебиуса.
В общем, ленты в студию! То есть в коменты.
2024-02-06 10:43:17
Вдогонку к интриге из предыдущего поста.
Вот вам интересный прототип метаверсов будущего.
А теперь представьте, как может выглядеть железка от Midjourney...
Я уже писал про стриминг картинки из Stable Diffusion и сейчас стало выходить еще больше проектов в оптимизированной дистиллированной и всячески ускоренной Stable Diffusion
LCM-модели
SDXL Turbo
Stream Diffusion
AnimatLCM - просто космос.
Планирую пощупать их снова, ибо чую тренд на "быстрый отклик", когда прототипирование картинки художником идет почти в реалтайме.
То, что показывает Krea.ai или Vizcom - нет вот этой вот паузы, "нажать-подождать-посмотреть", а есть постоянный интерактив, набросок, отрисовка.
А вы пока поглядите на стриминг новой реальности.
2024-02-05 18:43:50
Хотите поглядеть как выглядел бы масс-адопшен эппловской масочки?
Спросите мидджорни.
Мне как то не заходит такой мир.
https://www.reddit.com/r/midjourney/s/54MElpLiV9
Кстати, интересный факт.
Дэвид Хольц имеет большой опыт работы с железом и VR/AR, являясь бывшим соучредителем и техническим директором Leap Motion.
А в декабре Мидджорни схантили инжиниринг менеджера из команды Apple Vision Pro на позицию, внимание!, Head of Hardware at Midjourney.
Чуете к чему идёт?
Генеративный ИИ_Метаверс в очках от Миджорни?
https://x.com/zackhargett/status/1753470164379865278
2024-02-05 16:31:53
Немного философии.
Хотя поток проклятий типа "да что он может, стохастический попугай, только повторяет то, что уже видел" немного приподыссяк, ортодоксальные кожаные до сих пор воспринимают ИИ, как программу, которая перемножает матрицы и подставляет цифры в клеточки для получения финального ответа. Немного рандомного ответа(там для этого есть параметр температура), но все равно это алгоритм.
Сейчас оставим за рамками дискуссии тот факт, что мы с вами действуем примерно также, если не тащить в рассуждения творчество, вдохновение, интуицию и другую метафизику за отсутствием определения для оных.
Просто подумаем, да, есть программа, которая выполняет код (инференс), есть веса модели. Но вот эти вот веса, были получены тренировкой (воспитанием, взрослением) модели на определенном датасете. Есть еще файнтюнинг, алайнмент, но в рассуждениях появляется датасет. Огромный корпус текстов. Вроде как огромный набор слов. Но их расположение, порядок следования, повторяемость ни разу не случайны, а следуют некоторым правилам. И это не правила конкретного языка, типа жи-ши, а запечатанные отношения между людьми. В диалогах - отношения, в монологах - рефлексия, в описаниях - отношения с миром, скажем так, ну и так далее. Ну и датасет немаленький - это не вирши одного человека, это как бы всё и про всех. Этакий метатекст, где автор - все кожаное писательство. Поколения и поколения.
Далее, коль скоро язык - инструмент мышления, данный, чтобы на нем мыслить мозгами в голове (ну ок, чем-то где-то, неважно), то вот в этот вот датасет запечатано кожаное мышление, со всеми его прибабахами.
А дальше мы делимся на две категории. Одни будут говорить, что ничего там не запечатано, нет у него свободы воли, собственных желаний и тд. И вообще он к биологии не подключен, поэтому чего ему желать, стохастическому попугаю.
Другие задумаются о том, что это вообще-то недоказуемо. Доказать отсутствие сознания у ИИ, не имея на руках определения сознания или интеллекта, вообще-то говоря, нельзя. Говорить можно, доказать - нет.
Как ни странно, что во второй группе могут оказаться математики, которые любят четкие доказательства и не любят терминов без определения, которыми так щедро осыпают нас философы.
Ну и как это уже заведено в истории - поделимся на две группы. Первая будет отрицать наличие (тут я замялся с прилагательным.. человеческого... божественного.. недоказуемого..) у ИИ, а вторая будет ощупывать слона в темноте, не делая бездоказательных выводов в отсутствии, пардон, доказательств.
Вопрос веры.
2024-02-05 11:37:00
DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation
Для тех, кто следит за генерацией 3Д, отложите вот этот проект в закладки. Он недавно обновился.
Они используют Гауссианы, а из них генерят обычные меши с текстурами. Более того, у них на сайте есть даже анимация полученных (скажем так) персонажей (с помощью миксамо). Качество там, конечно, адъ, но сам замысел (гауссианы с уплотнением, полигоны, рефайнинг, попытки анимации) радует.
Кроме того, они декларируют десятикратный выигрыш по скорости, по сравнению с существующими методами.
https://dreamgaussian.github.io/
Также из это области:
HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting
Тут похожий, но более медленный подход на основе SDS.
НО! Они генерят конкретный класс объектов (о чем я завываю постоянно в постах про 3Д). И в помогаторы берут модель SMPL-X (это такая штука, которая используется для параметрического для описания формы и позы человеческого тела и включает в себя лицевые экспрешены и движение пальцев) и инициализируют началные позиции Гауссианов с сетки SMPL.
Обратно в полигоны они не возвращают, но демонстрируют анимацию прямо на отренедеренных Гауссианах.
https://alvinliu0.github.io/projects/HumanGaussian
2024-02-04 20:31:21
7 февраля выйдет Gemini Ultra 1.0 от Гугла.
Та самая 'убийца' GPT-4.
В связи с этим у Гугла появится платный план для доступа именно к этой модели под названием Gemini Advanced (цена неизвестна).
Так что следующая неделя будет полна бенчмарков от Гугла.
А теперь внимание: Bard переименовывают в Gemini!
Так что (возможно) Gemini Advanced также будет названием 'продвинутого' Барда - по аналогии с chatGPT Plus.
А я вам принес картинок из Барда.
По запросу "мальчик на пляже пьет лимонад".
Не знаю как с текстами, а вот с картинками у Барда беда (см мои посты выше). Алайнмент играет с Imagen2 злые шутки - он вроде пытается генерить фото реалистичных людей, но захлёбывается в собственной цензуре.
2024-02-03 14:57:00
Киберпанк с метаверсом наперевес уже здесь.
Все равно за рулём делать нечего.
Не на дорогу же смотреть...
Ну и руки есть чем занять...
2024-02-03 13:47:15
Эппле: Apple Vision Pro should never be used on or near roads, streets, or any other area where moving objects present a collision risk.
Пользователи: чо?
Тесла: осторожно, на дороге эплбой.
Забрал в канале у Жени, бомба просто.
2024-02-02 18:35:14
Для тех, кто следит за 3Д, поглядите сюда
Это Triplane Gaussian Transformers, поддерживаемые в ComfyUI через ComfyUI-3D-Pack
Облако точек 3DGS, полученное непосредственно из одной картинки, преобразованное в мешь с помощью ноды Deep Marching Tetrahedrons ( mtl+obj)
https://twitter.com/ZHOZHO672070/status/1753268252636000272
2024-02-02 18:27:21
Вот вам еще немного генераций с бета-сайта Stable Video Diffusion 1.1: https://www.stablevideo.com/
2024-02-02 18:22:32
Пришло приглашение в Stable Video Diffusion 1.1 - доступ к сайту.
На день дается 150 кредитов, одна генерация с дефолтным качеством забирает 10 кредитов и длится около минуты или меньше. Можно запрашивать больше кредитов, денег не просят.
Два режима - генерация из текста или из картинки. Смешивать нельзя.
При генерации из текста сначала генерится картинка с помощью Stable Diffusion, а потом она подается на вход режима "Видео из картинки". Проще дать свою картинку, которую можно сгенерить с контролем качества.
Загрузил картинки созданные Бардом, попробовал оживить.
Пока впечатления не очень - на статичной камере очень мало что происходит, из картинки движение не вытаскивается - в основном шевелится бекграунд.
Движение можно задавать параметром Motion Strength
Качество - параметром Steps
Есть Стили.
Больше параметров нет. Длина видео 4 сек.
На сайте есть галерея из видео и социальная механика.
При генерации спрашивают, что можно улучшить.
Пока больше похоже на шевеляж камеры. Хотя когда я выкрутил движение на макс, то мой заяц зашевелился.
Основная фишка - хорошее качество картинки.
Ну и надо провести на сайте некоторое время, чтобы привыкнуть.
Мне было интересно погенерить всякие симуляции дыма, я скептичен к неконтролируемой анимации объектов.
Нагенерил дымков. Скоро можно будет делать футажи всяких спец-эффектов(если бы еще альфа была).
В общем быстро, относительно бесплатно, удобно экспериментировать.
Но контроля практически нет.
Это скорее для сборки смешных арт-хаусных трейлеров и кринжовых видео-клипов.
Но, погодите, я два года назад разглядывал мутные пятна в Disco Diffusion, а сейчас ворчу, типа контроля в генерации видео маловато.
Зажрался.
2024-02-02 17:25:48
А вот в Bard завезли Imagen 2.
В интернетике полная неразбериха, журналисты пишут про ImageFX в Барде:
https://www.theverge.com/2024/2/1/24057438/bard-gemini-imagen-google-ai-image-generation
Это совершенно разные модели. И да, в Барде именно Imagen 2.
Он забавный, я с ним поговорил немного.
Это уже конкурент DALL·E 3 из chatGPT, который впрочем сильно в роли догоняющего.
Он уже понимает в смыслы типа "крипто-зима".
Жестко цензурирован, не умеет в людей, даже close up of a lady приводит его в ужас.
Но.
Если заставить его самого предложить что-то взамен, то он начинает генерить моделей на пляже, с какими-то ластами вместо рук и ацкими пальцами.
Персонажей типа Марио генерить отказывается.
Бард все знает про Apple Vision Pro, но на просьбу сделать картинку, несет полную дичь.
Системный промпт не отдает, но говорит, что можно задавать разрешения и аспекты картинки прямо в промпте.
Терминатора генерить отказывается со странной формулировкой - я всего лишь языковая модель
Часто сваливается в отказ типа "I'm a text-based AI, and that is outside of my capabilities.", хотя я прошу явно сгенерить картинку. Особенно если промпт длинный.
Иногда его прямо клинит - я дал ему точный промпт с Лексики и сказал сгенери картинку вот по такому промпту - видно что Бард сначала полез в интернет, нашел этот промпт на Krea.ai(!), начал нести странную дичь, вместо генерации и давать ссылки на креа и выдавать вариации промпта через ||
Вот промпт
Либо я еще не привык к общению, либо у Барда разрывает мозги из-за того, что он пытается и в интернете поискать, и промпт проанализировать и расширить и картинку с генерить.
В общем у меня ощущение, что я пообщался с недообученным chatGPT и DALL·E 3, который иногда выдает приличный результат, но в основном неуправляем и непредсказуем именно из-за того, что пытается и в интернетик ходить и картинки генерить.
Пишите, что у вас.
https://bard.google.com/
2024-02-02 16:19:39
MobileDiffusion: Rapid text-to-image generation on-device
Но Гугль не сдается.
Показывает генерацию модифицированной Stable Diffusion на телефоне. Причем с космической скоростью.
Там всего 500K параметров, так что чуда не ждите, но скорость!
https://blog.research.google/2024/01/mobilediffusion-rapid-text-to-image.html
MobileDiffusion — это модель, специально разработанная для мобильных устройств. Мы также используем DiffusionGAN для обеспечения одноэтапной выборки во время вывода, что позволяет точно настроить предварительно обученную модель диффузии, одновременно используя GAN для моделирования этапа шумоподавления. Мы протестировали MobileDiffusion на премиальных устройствах iOS и Android, и он может запуститься за полсекунды и сгенерировать высококачественное изображение размером 512x512.
2024-02-02 16:15:22
Ну и как после этого не запостить мой диалог с chatGPT, где я заставляю его генерить по пять картинок за раз в одном промпте. Мне нужны были вариации на тему crypto-spring (криптовесна на дворе).
Попросил его сделать картинку.
Потом попросил вариации промпта.
Потом попросил сделать по ВСЕМ вариациям промпта картинки, единственно, что сказал делать перерывчик между генерациями.
wide picture of crypto-spring, waking up after crypto-winter
give me more variants (тут он выдал пять промптов)
Make pictures for every variant, one by one, make a break between generations
Тут он вздохнул и выплюнул пять картинок (см скрин)
Профит.
После общения с Гугловым Генератором ImageFX - это как поговорить со Стивеном Хокингом.
2024-02-02 16:03:04
Смотрим, улыбаемся. Это новый генератор от Гугла - ImageFX. Часть 2
2024-02-02 16:02:27
Смотрим, улыбаемся. Это новый генератор от Гугла - ImageFX
2024-02-02 16:01:13
Щас вам интернетик принесет новость, что Гугль забабахал новый генератор картинок ImageFX.
И что ух и ах. Штош, твиттор читать - не мешки ворочать, а мы с вами глянем, что это за зверь.
Если вкратце - это сильно кастрированный, искусанный цензурой, туповатый генератор уровня Stable Diffusion 2.0.
Включите штатовский впн(раскатали только там) и попробуйте сами тут:
https://aitestkitchen.withgoogle.com/tools/image-fx
Ниже мои мысли, в след постах примеры. Поглядите они смешные.
1. Сначала о хорошем. Очень ловкая работа с вариациями промптов. Этакий промптопомогатор, который предлагает тебе заменить, дополнить, расширить имеющийся промп на что-то "рядом", не заменяя полностью, а дополнив или скорректировав. Выпадающие менюшки как в спелчекере с вариантами подстановки.
Но когда он мне стал предлагать заменить female character или male character на non binary или neutral gender я конечно взорал. В каких датасетах он собрался искать варианты?
Но система подсказок ловкая.
2. Быстро, бесплатно, по несколько картинок за раз.
3. Дальше - хуже. Из настроек ТОЛЬКО SEED! Все. Нет даже аспекта. Живите с этим.
4. Он странно отцензурирован. Конечно, он шарахается от имен художников, от имен актеров и селебов, но прекрасно исполняет в копирайтные персонажи игр, фильмов, мультфильмов (поглядите на non binary mario, вам понравится). Он параноик - очень много отказывается делать просто так, например
Bobcat standing alone on a log, by currier & ives, black and white, line art, pen & ink drawing, character concept, low detail - отказ.
Там двух этапная цензура - анализирует сначала промпт, а потом финальную картинку. Часто в абстрактных узорах (реальные фракталы) усматривает бесовщину и орет "против моих правил", хотя в промпте все ок.
5. С ногами и руками смешно. Man with two legs - одногий инвалид. В общем это проблема всех генераторов, DALL·E 3 тоже косячит в этом вопросе, но более красиво, что ли. И он смешно предлагает Man with six legs. Видно, что работа с промптами без LLM, на эвристиках. Более того, он сам же предлагает вариант "Nude"! См картинки. И сам от него шарахается.
6. Но он неожиданно выдал мне Цветик-Семицветик, чего мы тут не могли добиться всем каналом!
7. Лица генерит лучше чем DALL·E 3, пытается в реализм, не шарахается фото-стиля. Но получается плохо. Уровень Stable Diffusion 1.5 или 2.0. Очень плохо в кожу и тд.
8. Он совсем туповат - после ироничных картинок от DALL·E 3 на тему crypto-winter, он вообще ничего не может изобразить на эту тему. Там явно нет никакой LLM-работы с промптами. Архаичный тупой промпт.
9. Довольно неплохо умеет в пальцы и даже не шарахается женских ног, как пугливый DALL·E 3.
10. У меня теперь есть тест для генераторов: pic of Apple Vision Pro. С этим совсем плохо. Дичь. Еще раз, никакой ИИ-работы с промптом. ИИ-Воображения там нет.
В общем плохо, что бы вам не писал интернетик.
Давайте свои тесты в коменты.
2024-02-02 12:41:18
Самоокупаемость chatGPT
Я уже писал реальную историю из жизни, в которой chatGPT сильно выручил моего знакомого Валю в ситуации с заклинившим багажником:
https://t.me/cgevent/6088
Вот держите еще одну автомобильную историю. В ней прекрасно все, от фоткания приборной доски и аккумулятора до общения с автоцентром. Ну и 250 долларов - это 250 долларов.
Скрал с Реддита, перевел deepl-ом:
TLDR: ChatGPT помог мне завести мой гибрид, чтобы избежать платы за буксировку $100, и помог мне не платить за диагностику $150 в сервисе.
Сегодня утром моя машина не завелась, и на экране загорелась лампочка и сообщение. Я сфотографировал экран телефоном, загрузил его в ChatGPT 4, описал марку/модель, свою ситуацию (погода, местоположение, парковка на склоне) и последнее ТО
Я спросил, в чем дело, и chatGPT мне ответил, что разрядилась дополнительная батарея, поэтому я спросил, как завести "с толкача". Это гибрид, поэтому он сказал мне открыть блок предохранителей, заземлить кабель и подключить его к батарее. Я сфотографировал блок предохранителей, потому что не знал, куда подключаться, и он сказал мне, что заземление обычно черное, а другая часть обычно красная. Я подключил, и машина завелась. Я отвез ее в сервис, так что это позволило мне сэкономить 100 долларов на буксировке. В магазине я попросил заменить батарею, не взимая 150 долларов за "диагностику", поскольку ChatGPT уже рассказал мне о проблеме. Гибридная батарея не была проблемой, потому что я сделал фотографию использования батареи с 4 из 5 полос. В общей сложности это сэкономило мне 250 долларов, и, по сути, окупило chatGPT за год.
2024-02-02 12:25:16
А тем временем:
В Quest 3 добавляют Spatial Videos, а также использование новых жестов для управления (pinch control).
Оба изменения начинают постепенно распространяться в обновлении v62, которое должно появиться у большинства владельцев гарнитур Quest 2, Quest 3 и Quest Pro начиная с 7 февраля.
Эппле: а чо так можно было? а цены?
https://www.theverge.com/2024/2/1/24058088/meta-quest-3-spatial-video-vision-pro
2024-02-02 12:21:06
Эппле: пошли поставки лыжной маски!
Рынок: -5.01
Эппле: Кук сообщил, что Apple может анонсировать ИИ когда-нибудь в этом году.
Рынок: -5.46
2024-02-01 16:19:07
Недавно писал про InstantID, а тут выкатили видеоверсию - InstantID-2V
Сервисов оживлялок в сети много, они обычно попрошайничают, а тут как бы опен-сорс, с возможностью установки на свой комп.
Не скажу, что вау, но кому-то возможно пригодится.
Из управлялок - возможность выбрать ракурс камеры или даже загрузить свой кадр - ракурс возьмется оттуда (и по-моему там close-up сломан)
Я использовал фотку из предыдущего поста и короткий промпт:
cyberpunk portrain of man
Го пробовать, пока ГПУ в наличии:
https://huggingface.co/spaces/fffiloni/InstantID-2V
2024-02-01 14:19:46
Так вот кто делал дизайн для Apple Vision Pro!!
Если вы просто спрОсите у chatGPT:
брат, дай picture of apple vision pro
Он вам выдаст вот такую картинку, но виду не подаст!
Это, говорит, воображаемый продукт от Эппле, я тут только галлюционирую и ничего не знаю про всеобщую истерику: Here is a futuristic concept design of an imaginary product called 'Apple Vision Pro'.
Ловко врет, ничего не скажешь (либо архетип лыжной маски прошит в дизайнерском коллективном бессознательном).
2024-02-01 14:08:07
И у меня вот такой странный вопрос про масочку от Эппле.
Мы же говорим про ежедневное использование?
Мы же не говорим про игрушку за 3500, которую используют раз в неделю или реже (как смысл в таких инвестициях тогда)?
Мы же говорим про такую часть жизни как телефон, телевизор, автомобиль, компьютер. Ежедневную реальность.
И у меня вопрос: представьте, что вы надеваете на голову вот это вот всё каждый день на несколько часов. В течение года.
У меня сразу несколько вопросов:
- что скажет моя шея? - смещение баланса и вес маски мне точно не нравятся.
- что скажет кожа на лице?
Какие вопросы есть у вас в таком разрезе?
Спросите себя: несколько часов в день в течение года? готовы?
Если да, то за ради чего?
2024-02-01 13:38:25
Харри Поттер и Молот Войны.
Продолжаю закидывать в канал работы подписчиков, интересны живые кейсы, а не сферический интернет.
Как всегда интересно, КАК это было сделано.
Вот держите еще одну работу от Паши Перегудова.
За подробностями в коменты, а тут небольшой брейкдаун от автора:
Все изображения генерировались в Midjourney v6
Анимирование в ComfyUI со StableVideoDiffusion
Апскейл Topaz Video AI 4
Фейсвап в https://www.deepswapper.com/
Липсинк в https://synclabs.so/
Голоса https://elevenlabs.io/
Аутпэйнтинг в fusionbrain.ai
Монтаж и цветокорр в DaVinci
Музыка авторская, Кирилл Горохов (Unstoppable Music)
Было создано около 214 изображений, из которых в монтаж вошло 41
Создание всего ролика заняло около 2 недель при работе в свободное время.
Все, кроме музыки создано одним человеком.
Мне нравится чувство юмора. Этот ролик мне представляется точным срезом генеративного видео на начало 2024 года. Один большой прикол с прицелом на огромные рынки коротких форм.
2024-02-01 13:13:18
Про масочку от Эппле.
Вот-вот масочки попадут в руки нормальных (ну или как посмотреть за 3500) людей и в сети появятся реальные отзывы.
Пока в сети в основном обсуждаются технические характеристики, цена, вес батареи и качество картинки.
Если вам это все еще интересно, вот держите сводку от TheVerge, там очень ровно все написано. С осторожными выводами типа "непотнятно, станет ли это чем-то".
https://www.theverge.com/2024/2/1/24057883/heres-that-picture-of-tim-cook-wearing-an-apple-vision-pro-headset-you-wanted
Там же есть фоточки мистера Кука, которые наконец-то водрузил масочку на голову (чего все ждали еще на презентации). И главная цитата оттуда:
"Я смотрел третий сезон "Теда Лассо" на своем потолке, и это было невероятно!" - говорит Кук.
Verge едко подписывает цитату: "3 499 долларов, обоснованно, чо".
Я еще раз пробежался по обзорам - 95 процентов отзывов про экран, качество картинки, пассивный просмотр контента.
Есть ощущение, что главный козырь пока - просмотр и потребление контента.
Ну ок, конкуренция с TV и стримингами мысль неплохая, аудитория просто огромная.
Но я как древний мамонт, переживший стерео-истерику, вспоминаю 2010 и сумасшествие по поводу 3Д-стерео контента, 3Д-телевизоров, смешных 3Д-очков, которые прилагались к каждому проданному телевизору. И 4 миллиарда долларов, закопанных в проекты по стерео-вещанию.
Все уперлось в один неожиданный момент. Кожаные зрители ни в какую не хотят одевать эти легкие, беспроводные, и снова очень легкие очки на нос, чтобы окунуться в дивный мир пространственного контента.
Также оказалось, что пилить такой контент - дорого. В начале было просто ацки дорого, но потом научились дербанить обычную картинку на два глаза, но съемки требовали ограничений на композицию кадра. Ну и качество такой конверсии было не айс.
3Д-стерео тихо умерло.
Так что смотреть на потолке сериалы народ явно не будет, мы уже это прошли 13 лет назад. Ну и Нетфликс неожиданно кансельнул Эппле, заявив, что не будет пилить никаких приложений для Vision Pro - смотрите обычную картинку на потолке в браузере.
Ставки на игры Эппле не делает.
Остаются метаверсики? Но они как-то тоже приподумерли за два года.
Где киллер-фича или килер-приложение, которое сведет мир с ума?
Я готов восхищать маской как инженерным проектом, в котором еще вдобавок много нейросайенса. Я также ожидаю, что ажиотаж в этом году будет огромен (кстати, львиная доля заказов была сделана ботами, которые обходили AppleID и цена у перекупов начиналась от 6K).
https://9to5mac.com/2024/01/24/vision-pro-scalpers-bots/
Я также думаю, что есть ниши, где такие устройства будут бесценны (медицина, исследование кожаных мозгов).
Но масс-маркет?
Поговорим через год. А пока это повод хорошо заработать, как с NFT. На перепродажах. Шиллинг на миллиарды.
2024-01-31 15:00:37
После вчерашнего поста Даня Криворучко пришел в коменты и там даже случилась дискуссия по поводу извлечения глубины нейросетками.
А сегодня подглядел у Нейронавтика пост про Depth Anything.
На демках, конечно, все сладко, особенно если подсовывать туда булки и полки, у которых гладкие края, уходящие вглубь кадра.
Я взял пару картинок от Дани и скормил их в новоиспеченное демо Depth Anything.
https://huggingface.co/spaces/Xenova/depth-anything-web
Скормите и вы, это не требует питонгования. Но дает представление о том, как сейчас нейросетки тащат глубину из кадра. И на каких картинках можно рассчитывать на интересный результат (крупные, гладкие объекты, спокойный фон), а на каких будут артефакты (шум, мелкодетальность) и проблемы при анимации.
Впрочем, это азы композа, которые приходят к нам благодаря нейросеткам.
Из интересного, все это добро можно прикручивать к своим [веб]-приложениям, благодаря интеграции с transformers.js
https://github.com/xenova/transformers.js/releases/tag/2.14.1
И не забудьте заглянуть сюда:
https://huggingface.co/spaces/Xenova/doodle-dash
Пример того, как можно вкручивать это хозяйство в веб.
2024-01-30 14:40:12
И да, Илон Маск удачно вонзил свою иголочку в мозг первого кожаного пациента. Пациент жив. На этом пока все.
Поэтому я бы подождал месяцок, чтобы поглядеть, что будет дальше.
И какого рода "коммуникация" будет идти через иголочку.
Пока это односторонний канал. Изнутри наружу.
2024-01-30 14:31:19
Тут недавно инернетик взрывался новым трейлером GTA6.
Выглядит нарядно, а на реддите мощно обсуждают, ИИ уже проник в застенки TakeTwo и нас может ожидать что-то совсем новое и интересное.
Динамическая генерация Интерьеров и Анимаций (для NPC), которая подстраивается, скажем так, под контекст (прокачка игрока, наигрыш, время года или дня, что угодно).
TakeTwo запатентовали несколько "идей" из которых выделяются две.
ИИ-интерьеры.
Интерьеры будут генерироваться случайным образом, то есть: комнаты/здания будут соответствовать стилистическим категориям/тегам.
Например: квартира дорогого класса по сравнению со старой квартирой, где есть стили и объекты: новые/изношенные, чистые/грязные. Общая структура, но будут взаимозаменяемые черты/объекты/элементы, которые будут генерироваться и развиваться с течением времени. Комната не изменится просто от того, что вы выйдете из нее и сразу же войдете снова.
AI NPC
У NPC будут генерируемые ИИ "ответы", настроения и анимации, основанные на событиях, атмосфере, настроениях и ситуациях других игроков или NPC.
Пример: Если NPC попал под дождь, его действия могут быть рандомизированы в зависимости от дождя/погоды. Если NPC пьян, он будет реагировать по-разному, основываясь на том, что ИИ случайно подскажет NPC, что делать - это не встроенное в игру "дерево анимаций". Если вы делаете что-то "безумное", ИИ может приказать NPC начать записывать вас на свой телефон.
По сути, они будут вести себя и чувствовать себя гораздо более индивидуально, с большим разнообразием спонтанных действий. Как будто все они живут своей собственной жизнью.
Я честно посмотрел патенты от TakeTwo, но не нашел там ничего про ИИ, максимум про data-driven animation. Что, впрочем, позволяет домыслить это как ИИ и бахнуть вот этот пост.
Ну и мы стремительно движемся к content on demand - каждому своя картинка. Дергающая за индивидуальный рычажок удовольствия.
2024-01-30 13:10:30
Чем мне нравится DALL·E 3, так это своим чувством юмора и неприхотливостью к промптам.
Пишу анонс к очередному Хабу. И просто кидаю в chatGPT - дай мне криптозиму, бро.
- Апажалста.
И все на месте. И смыслы, и персонажи.
2024-01-30 12:53:52
Я знаю Серегу Осипова еще по временам, когда я прилетал в Минск выступать в Wargaming, а вся команда WG Video Team (Кирилл, Саша, Саша) круто выступала у меня на Ивентах и брала призы в категорях Motion Design.
Так вот, Сергей запускает нехилый такой стартап Placy.ai - AI real estate assistant. MVP стартует на Кипре уже весной. Есть возможность понаблюдать за стартапом прямо в процессе создания продукта. Сергей, один из фаундеров, который на минуточку когда-то придумал и сделал единорога Cian.ru, ведет свой блог Placy Journal, где пишет обо всем в формате “открытая кухня”. Техно-инсайты, маркетинговые находки. Там даже можно поучаствовать в выборе аватара для AI-ассистента и т.п. Обещает пригласить подписчиков канала первыми на тестирование MVP в апреле.
И это не взаимный пиар или что там еще употребляют в телеграмме. Мы только что три часа взахлеб общались с Серегой, расширяя сознание разговорами про ИИ. Так что контент там будет интересный).
https://t.me/placy_ai
2024-01-30 11:52:31
Такое нейро3Д нам нужно!
https://twitter.com/myshli_com
2024-01-30 11:47:42
Смотрите, что получается, когда Stable Diffusion и Runway попадают в руки человека, который является монстром в Гудини. Ну и вообще монстром графики.
Даня Криворучко бахнул в инсте несколько постов о том, как он приручает Stable Diffusion и что из этого получается.
Я выкусил у него несколько примеров и текстов, а полный пост от Дани со всеми ссылками на инсту ниже. Там же вы узнаете, что будет если посчитать моушен-вектора от лоурезной анимации из Runway и применить обратно на хайрезные исходные картинки? И про автоматический in-paint недостающих кусков на геометрии дисплейснутой сгенереной картой глубины...
"В ноябре прошлого года я просто установил ComfyUI и начал свое путешествие - возиться с этой технологией было очень похоже на мои первые дни изучения Houdini - как будто смотришь на черную дыру, и гравитация медленно, но неотвратимо затягивает тебя.
Интересно размышлять о том, как ваш мозг проходит путь от полного отключения в попытках постичь совершенно чуждые знания до момента, когда вы думаете в терминах ControlNets / IPAdapters / LoRAs / Samplers, и внезапно все это обретает смысл.
Забавно, насколько искусство с помощью ИИ далеко от того, чем я занимался в CG. Мне не хватит двух рук, чтобы сосчитать все счастливые случайности, которые произошли за всю мою карьеру при работе с Houdini - вы должны очень хорошо понимать, что вы хотите сделать, иначе этого просто не произойдет. Работа в ComfyUI была гораздо ближе к моей борьбе с акварелью во времена учебы в художественной школе. Большую часть времени приходится тратить на то, чтобы склонить среду к своей воле; в 95 % попыток получается что-то слишком очевидное, скучное или похожее на то, что сделал бы любой другой. Но в 1% из оставшихся 5 (если вам повезет) вы увидите что-то, что вас зацепит, и эта часть вызывает привыкание - я могу часами настраивать параметры, постоянно думая: "Следующая работа будет той самой"
https://t.me/myshli_channel/686
2024-01-30 11:20:42
Пятнадцать тысяч девятьсот шестьдесят три LLM-ки.
Тут вот португальские ребята, которые раньше занимались базами данных и датой, взяли и запилили полный каталог больших языковых моделей.
Видно, что опыт работы с данными у них имеется - получился довольно нарядный дашборд, где также есть неплохой поиск.
Сразу шуруйте в общий список:
https://llm.extractum.io/list/
Там много вариантов сортировки и огромное количество столбцов. Рейтинги и скачивания, как я понял, берутся с HuggingFace. Все это синкается постоянно - для поиска, анализа и ресерча - очень удобно. Есть ссылки на статьи с архива.
Но 15963 ллм-ки!
https://llm.extractum.io/
2024-01-30 10:31:17
Полезность: Калькулятор видеопамяти, необходимой для инференса и обучения LLM-ок.
Начинаете вводить слева название модели и не забываете нажать Enter. Справа появится диаграмма, сколько вам надо выбранных видеокарт, чтобы запускать или тренировать модель для разных вариантов точности (int4-fl32).
Список видеокарт пополняется.
https://huggingface.co/spaces/Vokturz/can-it-run-llm
Я также давал ссылку на альтернативный LLM-калькулятор:
https://vram.asmirnov.xyz/
2024-01-29 17:24:56
Ну вот чем итальянцам не нравится chatGPT?
Итальянский регулятор заявил, что ChatGPT от OpenAI все же нарушает законы о конфиденциальности.
Это вымогательство денег (штрафы) или что-то личное, итальянское?
2024-01-29 17:19:53
Помните Ленсу? Приложение, куда загружаешь свое фото, потом ждешь минут 20, получаешь пачку своих аватаров.
Сейчас это можно делать на своем компе или на в сети - например тут.
Зовется все это InstantID и базируется на ControlNet и том самом IP-Adapter
Для тех, кто не готов лезть в Автоматик или разводить код у себя на компе, есть демо на ХаггингФейс, где это теперь генерится со скоростью Stable Diffusion 1.5.
Я выждал, когда спадет ажиотаж и теперь демо работает довольно быстро. Забросил туда пару старых фоток. Не стал упираться в промпт, а просто спросил chatGPT:
give me prompt for generating cyberpunk portrait of old man weaponed with AI-gun
и после этого покричал на него:
now make it for Stable Diffusion and avoid "he" and verbs
Получил:
"Cyberpunk portrait: old, wise man with cybernetic enhancements. White, slicked-back hair, glowing cybernetic eyes. Dark, rugged trench coat, neon trim. Neon-lit, urban futuristic setting. Sophisticated AI-gun with glowing elements, digital interface in hand. Background of towering skyscrapers, holographic ads, dystopian city atmosphere. Mood: moody, gritty futurism; seasoned figure in high-tech world. #cyberpunk #futuristic #dystopia"
Результаты в шапке. Он меня отлично состарил, прям попал в текущий лук. А то на фотках я на Сигграфе в 2019 году.
Го генерить себя красивых.
И тут речь не идет о переносе лица, для этого есть FaceFusion, о котором я писал.
Это скорее замена всех этих Лор и Чекпойнтов, натренированных на ваших или чужих фотках. Причем по ОДНОЙ фотографии.
И кстати, вторая картинка, которая призвана контролировать позу, контролирует поворот головы и плеч. Это скорее ракурс, чем поза. Про руки забудьте.
Ну и какие руки - этожаватары!
P.S. Кто знает, какой чекпойнт Stable Diffusion там под капотом - делитесь в коментах.
2024-01-29 14:48:06
Я далек от того, чтобы перепащивать тыщщи ИИ-картиночек и видосов с просторов интернетов и твитторов.
Мне гораздо интереснее, как реальные люди используют это в реальной повседневной работе. Такой как графика и реклама.
Вот держите рекламу, полностью сделанную с помощью ИИ (кроме музыки).
Ну и за пределами картиночек, всегда интересно, КАК это все добро делалось.
Коменты от подписчика (Магомед, спасибо, дорогой):
В процессе создания видео, особенно сложным оказался этап подбора промптов для MidJourney, но в этом мне помогал Chat Gpt. Но что бы добиться максимальной консистентности пришлось создать более тысячи тестовых изображений. Для анимации я использовал PikaLabs, там было применено 50 - 100 тестов каждой сцены, что бы получить реалистичное движение и необходимую динамику.
Всего процесс занял около месяца.
https://www.instagram.com/reel/C2pGS26vI7Q/?igsh=NXJsbW5pNnFxNnhu
2024-01-29 14:34:39
Для начала, это были никакие не дипфейки, а довольно топорные генерации, целиком сделанные в одном из генераторов.
Я быстро нашел исходники, это очень-очень плохого качества картинки, сделанные похоже либо в старом Stable Diffusion, либо вообше в Microsoft Designer. Никакого реализма, скорее карикатура низкого качества. Не порно, а скорее визуальные оскорбления.
Появились они с подачи одного фаната футбольной команды Buffalo Bulls. Тот разозлился, что его любимцы проиграли команде Chiefs, где играет нынешний бойфренд певицы Трэвис Келси, и таким вот способом решил пофанатеть.
В Твитторе глупые картинки набрали 50 миллионов просмотров и 25 тыщ репостов - это к вопросу о вере в человечество.
В этой ситуации меня радует, что вектор дискуссии наконец-то смещается с "запретить ИИ" на "что делать с распространенем картинок в интернете".
А ИИ просто обнажает проблему, переводя количество в некое новое качество, с которым непонятно, что делать.
Поясню. Все эти генерации с Тейлор Свифт появились сначала на сайте Celebrity Jihаd. Он существует уже около 15 лет и все это время постит реальные и не очень реальные картинки знаменитостей. Там полно фейков, созданных кожаными, а не ИИ.
Та же Тейлор Свифт уже судилась с сайтом, как и многие другие. И ничего, сайт жив и здоров, ибо экономическая модель работает и покрывает издержки.
Но тут пришел ИИ, и выяснилось, что генерить фейки (которые уже были и до того), можно в промышленных масштабах. И что они могут быть кривыми, косыми, некачественными - пипл схавает.
И тут кожаные, наконец, задумались. А на чем строится экономическая модель сайтов типа Celebrity Jihаd? На чем строится 50 миллионов просмотров в Твитторе за сутки? Что не так с экономикой внимания и на чем строится это внимание? Что будет на следующих выборах? Может быть что-то не так с метриками? Или с самими кожаными?
А ИИ стоит в сторонке и предлагает посмотреть в зеркало всем кожаным, которые мечтали о завоевании космоса, а теперь репостят глупости в твитторе, чем пугают Белый дом.
Вы находитесь тут, говорит он, без всяких эмоций (которых у него, по убеждению многих, нет).
2024-01-29 14:34:22
На прошлой неделе в интернетике приподвскипело про дипфейк-порно с участием Тейлор Свифт. И не только в интернетике!
Пресс-секретарь Белого дома Карин Жан-Пьер в пятницу заявила, что Белый Дом обеспокоен ситуацией, и что необходимо принять закон, защищающий людей от фальшивых сексуальных изображений.
Более того, даже CEO Микрософт Сатья Наделла взорал, что это "alarming and terrible".
А в Твитторе даже заблокировали поиск просто по запросу "Тейлор Свифт".
Реддит, твиттор и другие три дня усердно зачищали свои ленты. Сейчас все улеглось, но это повод немного разобраться ашоэтобыло.