Нейролента - подборка новостей о нейронных сетях, ChatGPT

Нейролента Mikitos.ru 2736 постов. Страница 15 (50 постов)

Репосты из тематических каналов

Neural Shit 2024-02-28 08:51:44

Тем временем Alibaba замутили Emote Portrait Alive, создающий выразительные портретные видео с помощью модели Audio2Video.

Всего из одной фотки такие четкие видосы.

Думаю, скоро подобное заполнит tiktok.

Пейпер
Гитхаб (кода пока нет)

Сиолошная 2024-02-28 05:00:01

🚨Новый длиннопост🚨

В середине февраля в мире AI произошло много событий, но все они были затмлены демонстрацией новой модели OpenAI. На сей раз калифорнийская компания удивила всех качественным прорывом в области text-2-video.

Пока другие исследователи старались довести количество пальцев на руках сгенерированных людей до пяти (а члены гильдии актёров противостояли им), в OpenAI решили замахнуться на короткие (до минуты), но высококачественные и детализированные ролики — и, чёрт возьми, у них получилось!

Но не всё так однозначно — вот как думаете, зачем им понадобилось отнимать хлеб у ютуберов? На самом деле, модель OpenAI была разработана не для замены актёров, специалистов по графике и даже не для мошенников из службы безопасности Сбербанка, горящих желанием набрать вас по видеосвязи от лица Германа Грефа. И, нет, оживление мемов тоже не входит в список приоритетных задач.
▀▀▀▀▀▀▀▀▀▀
Про истинную причину разработки Sora и про будущее модели читайте по ссылке:
https://habr.com/ru/articles/794566/
▀▀▀▀▀▀▀▀▀▀
Отдельная благодарность Павлу Комаровскому @RationalAnswer за (уже далеко не первую) помощь в редактуре и подготовке материала — не забывайте подписываться и на него.

Метаверсище и ИИще 2024-02-27 16:05:26

Выглядит прельстиво, конечно. Сегментация, поиск объектов, замена и интеллектуальный инпайнтинг.
Мы все это уже видели в многочисленных бумагах и странных демо на hugging face

Теперь Эмад это тизерит как часть Stable Diffusion API

Конечно, все, что говорит Эмад надо делить примерно на 100, но выглядит это как путь к новым пайплайнам.

Хотя если вспомнить ну очень давние демки GauGAN от Нвидии, то это уже витало в воздухе еще в 2018 году...

Одно дело демки, другое продукты. Ждем.

Denis Sexy IT 🤖 2024-02-27 14:34:23

Сделал очередную GPT:
Если вы использовали GPT4, то вы наверное знаете что у нее все плохо с креативностью — я так понимаю в датасете частенько встречались какие-то пафосные статьи в стиле топ-10 идей которые вам изменят вашу жизнь, короче, с момента релиза я ее постоянно мучаю чтобы она была самой креативной и она постоянно сопротивляется.

В этот раз я решил пойти чуть дальше:
Я нашел пейпер в котором профессор из Кельна подымают вопрос «Паттернов креативного мышления» (pdf). В документе описано, что научиться креативному мышлению можно так же как и аналитическому и описано как это сделать. Дальше я отправил этот документ в Claude 2.1 с его гигантским размером контекстного окна и попробовал выжать «алгоритм» креативного мышления — от первой мысли до финального результата.

В итоге, я получил довольно большой набор «мыслей» на которые человек должен найти ответ, чтобы решить задачу в самом креативном виде.

В 2024 году людям мыслить уже не модно, поэтому я скормил эти шаги в гигантский промпт и сделал из этого GPT. На скринах пример идеи для свидания в Амстердаме:
Обычный ChatGPT vs Моя «Antibanality Ideas Processing».

Воспринимайте мои слова скептически (лучше так делать всегда), но как мне кажется это пока самое креативное на что способна GPT4 в своих ответах (во всяком случае из всего моего личного опыта). Если переедем на GPT5, то ответы станут еще лучше.

Ссылка на GPT:
https://chat.openai.com/g/g-zucYjaMne-antibanality-ideas-processing

⚙️ Важно: вы можете не читать все промежуточные этапы, они нужны только для того чтобы своими рассуждениями GPT4 повысила сама себе качество ответа — читайте сразу пункт «7. Финальная идея» когда он будет готов.

P.S. Языки поддерживуются все, дефолтный английский. В одно сообщение все помещается только на английском, другие языки жрут больше токенов так что просто напишете ей «продолжи» или нажмите кнопку .

P.P.S. Если идея недостаточно детально расписана, можно попросить уточнить детали, написанные «размышления» в чате помогут ChatGPT сохранить кретиавность.

Метаверсище и ИИще 2024-02-27 10:41:20

В недвигу такое должно залететь аж бегом. Я удивлен, что таких сервисов еще не сотни. Тут много продуктовых фич, от генерации фоток для сайтов по аренде-продаже до подбору мебели и дизайна.
Алкают денег по риэлторски: 3 доллара за фотачку при базовом плане на месяц и всего 6 фотачек. Недвига, чо.
https://www.virtualstagingai.app/prices

P.S. Все это можно рассматривать как мета-переодеваторы. Только переодевание недвижки стоит в 95 раз дороже, чем ИИ-примерочные для кожаных.

Сиолошная 2024-02-27 03:26:48

Завтра.

Бронируйте место в своих календарях

🤓

Метаверсище и ИИще 2024-02-26 22:47:15

Stable Cascade огонь. Некоторые лица прям хороши. И даже без SDXL-ного мыла. Что же будет на файнтюнах.
Пока только в ComfyUI с нормальным контролем. Остальные отчаянно молчат, включая A1111(с кривым расширением), Фордж, Фокус, SD.Next и прочих.
Midjourney слегка поперхнулся, но виду не подал (кстати, они отложили свой КонтролНет, хреново, говорят получается. Выкатили пока аналог IP-adapter вместо этого)

Метаверсище и ИИще 2024-02-26 22:32:28

В общем футуристические шутки по то, что ИИ щас для каждого сгенерит игру или кино под его индивидуальный запрос становятся не шутками и не футуристическими. Матрица в низком разрешении уже здесь.
https://sites.google.com/view/genie-2024/

P.S. Вместо "а что бы мне сегодня посмотреть/покатать", скоро будет "хей, сиири, что ты мне сегодня сгенеришь и покажешь с учетом количества алкоголя в крови, степени усталости и других кожаных параметров, в которых ты шаришь лучше меня? врубай уже скорее".

P.P.S. "И не вырубай пожалуй, я тут останусь, где подписать?"

CGIT_Vines 2024-02-26 22:26:33

Не-не-не, погодите, я не... я даже не ждал, что так быстро...
Все гораздо хуже, если это правда, никаких перескакиваний в 10 лет через привычные пайплайны. Это прямо сейчас происходит!!!

Гугл выкатил генерацию игрового видео! Т. е. сгенерировал и играй, просто вот так, покадрово, 30-60 fps!!! Какая же ты тварь, все-таки, Гугл! (Благо это будет в будущем, и это пока только прототип.)

Генерируется пока супермаленькое разрешение, даже не знаю, пытаюсь хоть какие-то плюсы найти... Представление о генерируемых мирах Сеть Genie берет из миллионов лет интернет-видео, со стримов, видимо.

Оно даже учится придумывать, видимо, управление и выучивать происходящее на экране как определенное действие. Забиндить это потом на клавиши, как вы понимаете, не составляет проблемы.

Читать подробнее тут

Метаверсище и ИИще 2024-02-26 22:25:14

SORA - это агент, управляющий мирами.

Пока я тут размышлял над тем, что SORA - это симулятор нашего утлого мира(глядя на это видео из SORA), наткнулся шикарную статью на lesswrong, которая прям дословно повторяет мои мысли только для более узкого класса миров - игры.

Я надергаю оттуда цитат, а полный фарш читайте по ссылке.
TLDR: если любой видеоклип можно продолжить, то и любой скрин(стрим) игры тоже можно продолжить, только не промптами, а мышкой или клавой. И будет вам симуляция любой игры. На примере майнкрафта.
ИИтак.

Для начала давайте дадим ей односекундный ролик из настоящей видеоигры Minecraft, в котором персонаж игрока немного перемещается. В нижней части этого ролика мы добавим на экран виртуальную клавиатуру и мышь. Клавиши и кнопки будут становиться черными, когда игрок нажимает на них, а стрелка будет указывать на текущую скорость мыши.

Если мы попросим SORA продолжить видео, она продолжит заставлять персонажа игрока двигаться. Картинка обновится, чтобы отобразить действия игрока - например, левая кнопка мыши должна становиться черной, когда игрок взаимодействует с объектом.

SORA может совершать "действия". Предположим, что сразу после записи односекундного ролика мы останавливаем игру и ждем, пока SORA предскажет следующие 0.1 секунды видео. Получив результаты, мы просто возьмем среднее значение цвета каждой клавиши в последнем кадре предсказанного видео и определим, какие кнопки, по мнению SORA, будет нажимать игрок. Наконец, мы продолжаем игру в течение 0,1 секунды, удерживая эти кнопки, и передаем 1.1 секунды реального видео Minecraft в Sora, чтобы она сделала следующий ход.

Чтобы задать ей направление, давайте добавим текстовую подсказку "строю дом". Это заставит Sora выполнять действия, которые она видела у игроков Minecraft в своих обучающих данных, которые строили дома.

Подробнее тут

В общем, пока я читал статью и писал тексты, пришла новость от Гугла (след пост).

И я пошел неистово наливать с нечеловеческой частотой за бывший gamedev.

gonzo-обзоры ML статей 2024-02-26 17:58:21

И да, напоминаю, что у канала есть Патреон (https://patreon.com/GonzoML), если хотите поддержать, что я делаю.

gonzo-обзоры ML статей 2024-02-26 17:53:36

Попросил ChatGPT (Gemini не умеет) сгенерить картинку по тексту этого поста, но полный текст поста туда не влез 🙂 И вообще туда много чего не влезло :))) Есть ещё над чем работать.

gonzo-обзоры ML статей 2024-02-26 17:36:18

И это только задачи на поверхности. Если копнуть глубже, их должно быть очень много. Я практически уверен, что мы увидим тут Jevons paradox (https://en.wikipedia.org/wiki/Jevons_paradox) во всей красе, использование всех этих моделей только увеличится.

6) Очень важный и очень при этом сложный класс решений -- валидация результата модели. Здесь будут решения, за которые многие [компании] будут готовы платить. Но надёжно сделать такое решение будет непросто. Ну вы тут тоже всё поняли.

7) Реально непонятно как в ближайшем будущем изменится работа для условных джунов. И будет ли она для них вообще. А если не будет, то откуда потом возьмутся миддлы и сеньоры. Не только и не столько в программировании, но и в других областях. В создании контента во многих задачах модели их превзойдут или будут существенно более дешёвой и быстрой альтернативой. Остаётся технически сложная область валидации контента -- вероятно туда и перетекут их активности. Но это не точно. Ожидаю существенного изменения содержания работы и появления совершенно новых тулов, которых ещё пока нет (ещё один ну, и наверное этим уже занимается условный JetBrains).

Не знаю, сколько там у OpenAI времени до создания AGI, когда они типа должны пересмотреть свои отношения с Microsoft и вообще решить, как на этом правильно зарабатывать. Но даже без этого они и Гугл уже выступают продавцами интеллекта на развес. Непонятно, что там будет с миром дальше, но как в промышленную революцию одни страны ушли сильно вперёд других, так и тут будет всё то же, но ещё быстрее.

gonzo-обзоры ML статей 2024-02-26 17:36:17

Большой пост про большой контекст

Размер контекста в современных моделях (то максимальное количество токенов, которое они могут переварить за один раз) неуклонно растёт. Сначала переход от двух или четырёх тысяч токенов к восьми казался большим достижением. Потом появились модели до 32k токенов, но они долго были ограниченно доступны, а когда вышли в массы, оказались уже безнадёжно устаревшими, потому что у одного из лидеров индустрии (Anthropic) были уже модели со 100k. Теперь лимиты публичных моделей в районе от 128k (GPT-4 Turbo) до 200k (Anthropic). Гугл отставал в этой гонке, его публичные модели максимум покрывали 32k (специальные версии PaLM 2 и все версии Gemini 1.0). Прорыв наметился с Gemini 1.5 (https://t.me/gonzo_ML/2350), у которой по дефолту те же типовые нынче 128k, но есть непубличная версия с 1M токенов, и research версия с 10M.

Отдельный интересный вопрос, как именно добились такого большого контекста, который ещё и работает. Есть разные свежие заходы с различных сторон, например, LongRoPE (https://arxiv.org/abs/2402.13753), LongNet с dilated attention (https://arxiv.org/abs/2307.02486), RingAttention (https://arxiv.org/abs/2310.01889) или там недавно упоминавшийся RMT-R (https://t.me/gonzo_ML/2377). Интересно, что именно сделал Гугл.

Такие новые лимиты скорее всего очень сильно поменяют практики работы с моделями. Хочется немного порассуждать про это ближайшее будущее.

1) Во-первых, старые техники RAG, отчасти призванные обойти ограничения малого окна контекста при необходимости работы с длинными документами, должны отмереть. Или по крайней мере остаться только для специальных случаев типа необходимости подтягивать свежие или какие-то другие особо релевантные материалы.

Всякие langchain’овские сплиттеры (https://python.langchain.com/docs/modules/data_connection/document_transformers/) режущие в основном по длине (ну с учётом более подходящих точек для разрезания в некоторых случаях) и раньше были УГ -- смотреть на эти порезанные абзацы без слёз было сложно, хотя как-то оно работало.

Даже при наличии способности к нормальному нарезанию на вменяемые куски, всё равно нужна эта разная обвязка, которая будет там что-то матчить и выбирать более подходящие куски, агрегировать результаты и прочее. Теперь этой хренью потенциально вообще не надо заниматься, и это хорошо.

Ну то есть в некоторых случаях оно всё равно конечно нужно и может повысить качество решения, но это надо смотреть. Я в целом верю в end-to-end решения и вытеснение со временем большинства этих костылей.

2) 1M токенов это прям реально дофига, теперь в контекст можно засунуть много статей, целые кодовые репозитории или большие книги. А с учётом мультимодальности и способности современных моделей обрабатывать ещё и картинки, видео и аудио (путём преобразования их в специальные нетекстовые токены), зугружать туда часы видео или речевых записей.

С учётом того, что модели хорошо проходят (https://t.me/gonzo_ML/2351) Needle In A Haystack тесты (https://github.com/gkamradt/LLMTest_NeedleInAHaystack), можно получать вполне релевантные ответы при работе с такими длинами. Реально можно найти конкретный кадр в видео (https://t.me/gonzo_ML/2357) или момент в книге (https://t.me/gonzo_ML/2356). И решать совершенно новые классы задач. Меня, например, впечатляют кейсы, когда модели скормили видео со скринкастом решения задачи (поиск жилья на Zillow) и попросили сгенерить код Selenium для решешия этой же задачи (https://www.facebook.com/DynamicWebPaige/videos/1422440318698615). Или тот же перевод на/с языка Kalamang по загруженному учебнику грамматики (https://t.me/gonzo_ML/2355, про то же от Джеффа Дина: https://twitter.com/JeffDean/status/1758149033473020081). Да, там в реальности есть ещё словарь и 400 параллельных предложений, но всё равно, In-context language learning -- это очень круто. Как и ответы на вопросы по длинному документу.

gonzo-обзоры ML статей 2024-02-26 17:36:17

Текущие модели типа GPT внутри пока чисто нейросетевые, работающие в режиме стимул-реакция, без какого либо внятного места для размышлений в стиле Системы 2. Те заходы, что есть (например, https://t.me/gonzo_ML/2100), пока в массе своей довольно детские. Но прямо сейчас где-то там разрабатываются разные гибридные, в том числе нейро-символьные, модели или модели с элементами планирования. Привет тайному Q* (https://t.me/gonzo_ML/2202) или другим свежим заходам в эти палестины типа, например, https://arxiv.org/abs/2402.14083. Даже в существующем на сейчас режиме, in-context обучение новой задаче по учебнику выглядит безумно круто (если работает). В режиме с полноценными “System 2 - like“ способностями это может быть вообще бомбой. Один из фронтиров пролегает где-то тут.

3) Интересный вопрос встанет с ценой на такой интеллект. Существующий прайсинг Gemini 1.0 Pro (https://ai.google.dev/pricing) в 0.125$ за миллион символов (что в переводе на токены ну пусть будет 0.2$ за миллион) уже сильно круче, чем у OpenAI (https://openai.com/pricing) с их 10$ за миллион токенов для GPT-4 Turbo, $30 для GPT-4 и 0.5$ для существенно менее крутой GPT-3.5 Turbo. И круче, чем Anthropic Claude 2.1 c 8$ за миллион (https://www-cdn.anthropic.com/31021aea87c30ccaecbd2e966e49a03834bfd1d2/pricing.pdf). [*] Речь здесь про входные токены, для выходных цена выше в 2-3 раза, но на выходе нам обычно не нужно генерить миллионы, это важно в первую очередь для задач с большим входом.

Если у Gemini 1.5 Pro будет такой же прайсинг, готовы вы платить по 10 центов за ответ по книге? А за генерацию кода для автоматизации задачи, которую вы записали на видео?

Мой личный ответ на второй вопрос да, а на первый -- хз. Если надо задать десятки вопросов, то это уже единицы долларов. Для анализа юридического документа или для разового саммари книги ок, а если надо делать это на потоке, то вопрос. Надо считать экономику. В сервисах, предоставляющих решения на базе таких моделей, надо как-то явно учитывать usage чтоб не разориться.

4) Независимо от экономики, должны быть способы экономить и кешировать результаты. Если надо задать кучу вопросов по одному и тому же набору документов, то странно делать это каждый раз как бы с нуля. Если структура промпта выглядит как {большой текст} + {вопрос}, то логично было бы первую часть как-то закешировать, раз она постоянная. Технически внутри трансформера эти просчитанные многослойной сеткой эмбеддинги входа можно было бы где-то сохранить и при новом вопросе считать только для этой новой добавки, экономя кучу ресурсов. Но инфраструктуры для этого пока нет (или я пропустил) и даже если вы разворачиваете модель у себя, то всё равно сходу такое не сделаешь, надо попрограммировать.

Мои ожидания, что что-то такое должно появиться и на уровне API, и инфраструкрурно для кеширования результатов локальных моделей. Возможно, какая-то удобная и лёгкая связка с векторной базой данных (ну вы поняли, что надо делать).

5) При правильном использовании это всё способно сильно увеличить производительность в куче задач. Я лично не удивлюсь, если отдельные люди станут в 10 или в 100 раз более продуктивными, что безумно круто. Понятно, что это не панацея и все задачи не решит, плюс по-прежнему актуальны проблемы конфабуляций (то, что лучше употреблять вместо галлюцинаций) и перепроверки результата.

Вероятно, есть классы задач, где проверка сильно дешевле, чем решение задачи самостоятельно (можем для прикола назвать этот класс “когнитивными NP” задачами), и их точно много -- те же написания писем или постов в блог явно ложатся сюда. Я лично уже давно пишу в англоязычный блог через перевод сразу всего текста GPT с последующим редактированием, это существенно быстрее, чем писать с нуля самому. Замечу, что косяки при этом встречаются сравнительно редко, даже GPT-4 Turbo нередко выдаёт текст, где вообще можно ничего не менять. Иногда -- сделать одну-две правки. Ни разу ещё не понадобилось переписывать не то что целый текст, а хотя бы один абзац.

addmeto 2024-02-26 17:34:28

Mistral выложили свою новую, самую большую их модель, Mistral Large. Модель, которая по своим характеристикам находится между игроком #1 (GPT-4) и #3 (Claude 2) пока не доступна в виде весов и исходников, а только в виде API на платформе La Plateforme и беты ассистента le Chat.
👁️👁️ https://mistral.ai/news/mistral-large/

gonzo-обзоры ML статей 2024-02-26 15:47:22

Мистраль выкатил свою большую модель Mistral Large, доступна на La Plateforme и Azure.

32k контекст, мультиязычная, умеет function calling.

Также выкатили оптимизированную Mistral Small, которая лучше Mixtral 8x7B (https://t.me/gonzo_ML/2162).

https://mistral.ai/news/mistral-large/

Метаверсище и ИИще 2024-02-26 07:01:28

Chaos Next. Взрослые мальчики берутся за ИИ.

Вот интересная новость от Chaos Group - они внедряют ИИ в свои продукты. И это отличная новость - ибо помимо Unity все крупные 3Д-вендоры упрямо отмалчиваются и делают вид, что слово ИИ есть, а ИИ - нет.
Смотрите, что удумали Владо сотоварищи (дальше в порядке возрастания интересности и уникальности):

Style Transfer - тут все понятно, наваливание различных визуальных стили к рендерам на основе референсов.

Lifestyle Image - грубо говоря, генерация (и матчинг) фонов, для совмещения ваших продуктовых рендеров и окружающей среды.

Material Aging Simulator - моделирует естественный процесс старения материалов в 3D, не только для симуляции, но и для принятия проектных решений. Тут у Хаосов огромная экспертиза - я видел у них офисе многотонный сканер, в который можно присунуть кусок любого объекта - он его отсканирует и выдаст PBR-материал нечеловеческой точности.

PBR Rendering (text to materials) - это то, что также делает Юнити (писал тут) - создания сложных реалистичных PBR-материалов на основе текстовых промптов или рефов.

Smart Scene Populator - автоматическое ИИ-размещение объектов в 3D-сцене. Вот это уже интересно. Похоже на то, что делал (и делает) Прометей от Андрея Максимова, с которым мы как раз и общались про это на Total Chaos в Софии в 2018 году.

Set Extender - это как outpaunt, только полностью в 3Д(!). У вас есть 3Д-сцена, ИИ может ее достроить и расширить. Я заинтригован.

Historical Asset Learner - вот это интересная штука - 3Д-ассистент, который смотрит, что пользователь делал за последний условный год, какие ассеты пилил, и потом "предсказывает его потребности". Я заинтригован еще больше.

Intelligent Lighting Optimizer - автоматическая настройка освещения в вашей сцене!!! Ну за лайтинг-артистов.

И все это добро с Voice Interface - может орать в монитор на ИИ: "объекты создай, как я все время делаю, раскидай их по сцене, посвети как надо и привали на это модный нейролук". И кофе, без сахара.

https://www.chaos.com/next

Сиолошная 2024-02-26 05:45:18

Папищики, выручайте.

Как я писал в начале года, хочется выйти на англоязычную аудиторию. Сейчас дописывается длиннопост про SORA, и я хочу сразу его перевести и выложить. Но главный вопрос — а как, а куда.

Для меня есть два главных критерия:
— гибкость редактора, позволяющая делать разное;
— возможность собирать людей, каким-то образом анхорить (anchor) их.

Первое оказалось слишком сложным — то нет подписей к картинкам (это как вообще?), то нельзя вставить код, то нет раскрывающихся блоков или вставки GIF'ок в них. Почти идеальным вариантом выглядит Obsidian Publish, позволяющий набирать текст в Markdown, но даже там есть проблемы.
Второе — это про сбор аудитории, email-рассылка, подписка или что-то ещё. Тот же Obsidian ничего не позволяет, и в нём нет аналитики (только через сторонний трекер типа гугл аналитики). Substack в этом плане людям привычен, им либо будут приходить письма, либо — если вдруг пропустили — они рано или поздно зайдут на сайт для прочтения чьего-то блога, и наткнутся на мой лонг.

Альтернативой этих двух для меня является свой блог на ghost.org, главный недостаток которого — неизвестность людям. Если я буду собирать там email'ы, то некоторые будут бояться их оставлять, а если не буду — то как анхорить людей? Зато есть платные подписки и в среднем неплохой редактор (не позволяющий вставлять медиа под спойлер, класс, ну как так то?).

В итоге разрываюсь и не могу понять, что лучше. Пока придумал следующую стратегию:
— сделать полноценный блог в Obsidian, там хороший редактор
— сделать зеркало на Substack, оставив сноску, что тут редактор днище, поэтому предлагаю читать оригинал вот тут, но если не хотите, то можете остаться.

И везде делиться ссылкой на сабстак, её постить на сайтах. Для людей домен знакомый, в худшем случае прочитают средне отредактированный пост и оставят почту. Самый главный минус — размытие аудитории на два ресурса.

Есть ли кто-то, кто может поделиться полезными мыслями и предложить альтернативную идею? GH Pages не нравится потому что нельзя анхорить аудиторию, кроме как RSS-фидом.

Чо делотб..

gonzo-обзоры ML статей 2024-02-25 23:05:06

А тем временем стоимость Нвидии выше, чем ВВП РФ

https://www.marketwatch.com/story/nvidia-is-now-worth-more-than-the-gdp-of-every-country-except-these-few-d58a3508

Метаверсище и ИИще 2024-02-25 13:30:11

Вебкам туториал.

Вебкам модели ведут себя примерно одинаково, особенно на интро-видосах типа "залетай ко мне в кабинет на процедуры". Движения до боли однотипные.
Теперь их (движения и модели) можно нейрорендерить в любом стиле и количестве. Кого-трясет, что браслет на руке иногда пропадает? Руки не для скуки, как известно. Вам фан или реалистичность?
Более того, солидные господа бегут от реалистичности в мир фантазий и ролевых игр. ИИ даст им и первое и второе.
И третье.

Тут, конечно, больше разнообразных типатанцев, но вебкамные движения нет, да и проглядываются... Или показалось? (Особенно на некоторых бекграундах).

Вот в такие метаверсы народ пойдет с удовольствием...

Ну ок, я ж про полезности в канале, а не про сиськи. Вот держите туториал, по которому делаются такие видосы:
https://www.youtube.com/watch?v=AN2Qf7Gek4g

Для совсем упоротых, вот вам настройки:

animation use this setting:

stage 2 - min keyframe gap - 3, max keyframe gap - 1000, treshold delta - 8.5.

stage 3 - [img2img] prefered controlnet is tile/blur, temporalnet, and lineart at weight 1. Sampler choice is LCM, steps ( minimum is 8, if too blurry I set to 30), CFG ( pick around 2 - 4, you need more steps for high cfg) better test 1 or 2 image first before generating whole keyframe.

Use the prefered resolution recommended on stage 3 description. Adetailer, enable and pick the one with face detection.

Метаверсище и ИИще 2024-02-25 12:46:58

Ну, за вебкам!
Мне кажется пора начать приподвыпивать не чокаясь за вебкам.
Тут на 20-й секунде раскрыта тема физики сисек.
Ну и всё..
За моделей, не чпокаясь.
За нейромоделей, звонко!

P.S. Блин, наткнулся на целый клондайк такого добра в любом стиле..
Реально можно увольнять моделей...
Полайкайте, навалю вам огненных видосов.

e/acc 2024-02-25 12:23:02

Руки, ноги или колеса?
Ответ: все вместе

А вообще, время когда роботы или люди-киборги менее быстрые, ловкие, сильные, выносливые, точные, чем животные (и обычные люди) — это очень короткий, незаметный на таймлайне эволюции, период. Который почти подошел к концу.

Метаверсище и ИИще 2024-02-25 12:08:08

Вот держите гибридный пайплайн от генерации 3D-модели персонажа, до рига, анимации и нейрорендера. Без всякого ретопа, текстурирования и шейдинга.

Берется Luma AI для того чтобы сгенерить десяток вариантов 3Д-персонажа по текстовому промпту.
Получается довольно обмылочный персонаж в духе PS1 с кривой топологией и кашей вместо головы и рук.
Дальше он тащится в Mixamo и там на него тупо кидается авториг. А потом и анимация в духе Hadouken!
Дальше превью анимации с этим болваном кормится в КонтролНет, чтобы достать оттуда позу и объем с глубиной - для дальнейшего нейрорендеринга с помощью AnimateDiff.
Ну то есть идея такая - генерим низкокачественного болвана персонажа с помощью ИИ, кладем болт на топологию и качественный риг, просто одеваем его в скелет и наваливаем нужную нам анимацию (пусть с заломами и косяками на сгибах). На этапе нейрорендеринга все эти косяки сгладятся в процессе переноса стиля из промпта или картинки.

Одна засада - надо знать Mixamo, анимацию и вот это ваше дурацкое 3Д.

Впрочем нажать кнопку Autorig и потом выбрать из библиотеки анимацию (или сгенерить промптом, или забрать по эклеру из видео с помощью open pose) может любой, даже не знакомый с 3Д. Осталось эти кнопки вструмить внутрь ComfyUI или A1111 и спрятать подальше эти ацкие настройки ControlNet - вот и будет вам AIMixamo.

P.S. Качество ИИ-генерации 3Д настолько плохое, что чувак отдельно потом генерит голову и руки для персонажа и пришивает их к полигональному мешу и начинает все сначала (иначе КонтролНет не хавает уродца). И вот тут уже надо знать 3Д, сорян.

Но проблески будущих однокнопочных пайплайнов отчетливо проступают из шума диффузии.

P.S.S. Была такая поговорка у продакшенов - "на посте все поправят". Теперь на посте сидят такие: "зачем моделить правильно, на нейрорендеринге все поправится".

Короче, расслабляем булки, ИИ все поправит. За вас.

Автор обещает полный тутор тут:
https://twitter.com/8bit_e/status/1761111050420727895

Метаверсище и ИИще 2024-02-25 11:25:02

Про пальцы и тексты. Баг, а не фича.

Про тексты на сгенерированных картинках я уже писал. Не очень понимаю, зачем столько усилий тратится на это. Шрифты, расстояния между буквами, размер букв относительно друг друга и еще десяток параметров, знакомых любому фотошопщику, просто рандомно накиданы на картинке. Я так понимаю, что 90% усилий было потрачено на то, чтобы генератор хотя бы писал тексты без ошибок. Но, блин, само написание кривое, косое, рандомное. Может у меня глаз профдеформирован, конечно, но это не шрифты, а рандом из букв. Который нельзя никак контролировать. Может быть кто-то придумает ControlNet для шрифтов, где в промпте можно указывать написание, кегль, засечки, размер - но это странный путь.

Теперь про пальцы. Вот держите примеры из Stable Diffusion 3. Как и со шрифтами 90% усилий потрачено на то, чтобы было 5 (не 6 или 4)
пальцев на руке. И все равно на картинках мелькают варианты c 4, 5.5, 6 пальцами. Ну и сами шрифты ладони очень кривые: это как правило мужские ладони, сильно не попадающие в размер самой руки, правая и левая разные, ну и так далее. При этом жесты типа V (виктори) или U (коза) вполне себе норм, ибо зашиты в датасетах.

Я это к тому, что демонстрировать все эти тексты или пальцы лучше на картинках с граффити или без вот этих вот открытых нарочитых ладоней. В хорошие шрифты или ровные пальцы модели все равно не умеют (по природе своей), поэтому просто скажите, что пальцы стали лучше, а ошибок стало меньше, но не подавайте это как фичу. Это багфикс, но не фича.

Neural Shit 2024-02-25 09:18:47

ДА

Сиолошная 2024-02-25 00:34:47

Рубрика «взгляд в будущее»

Как вы знаете, в свежей Gemini 1.5 Pro контекстное окно составляет 1 миллион токенов, при этом модель умеет принимать на вход видео. 1 миллион токенов позволяет вместить:
— 1 час видео (1 кадр/с)
— 11 часов аудио
— больше 700 тысяч слов (вся «Война и мир» с запасом)

Пока Google делает внутреннее тестирование контекста в 10 миллионов токенов, первые пользователи получили доступ к базовой версии и экспериментируют. Основная киллер-фича — модель очень хорошо ищет факты во всем промпте. Если спрятать там один кадр или одну фразу в длинном контексте — более чем в 98% случаев модель их находит (лучше GPT-4).

И это позволяет помечтать о невероятных способах использования. Если раньше мы думали «о, ща напишу инструкцию и модель сделает задачу», то вот тут в треде показывают, как девушка загрузила видео с записью экрана работы в браузере, а затем попросила Gemini написать код для автоматизации. Модель почти справилась — потребовались минорные доработки (в духе установки библиотек и изменения пары строк).

Поняли?
1) Записываем экран удалёнщиков в течение полугода
2) Агенты смотрят записи и учатся
3) Агенты пишут код для автоматизации
4) Повторять до тех пор, пока остаются задачи, выполняемые человеком

Представьте что в GPT-6 можно загрузить 500 часов примеров выполнения ваших задач — как думаете, справится с большинством?

Оригинал (с видео)

gonzo-обзоры ML статей 2024-02-24 22:03:50

Neural Network Diffusion
Kai Wang, Zhaopan Xu, Yukun Zhou, Zelin Zang, Trevor Darrell, Zhuang Liu, Yang You
Статья: https://arxiv.org/abs/2402.13144
Код: https://github.com/NUS-HPC-AI-Lab/Neural-Network-Diffusion

Диффузионные модели сейчас рулят, создавая прекрасные картинки и не только. Авторы предложили, что они могут генерить и параметры нейросетей. Вообще, мне кажется, они изобрели hypernetwork (писали про них тут https://t.me/gonzo_ML/1696) через диффузию.

Для тех, кто не знает как работают диффузионные модели, совсем в двух словах и на пальцах. Прямой диффузионный процесс получает на вход картинку (вместо картинки может быть любой другой сигнал) и последовательно шаг за шагом добавляет в неё шум, пока она не превратится в совсем шумный сигнал. Прямой диффузионный процесс не очень интересен, интересен обратный -- он получает на вход шум и последовательно его убирает, “открывая” (создавая) скрывающуюся за ним картинку (как бы делая denoising). Примеры диффузионных моделей мы разбирали в лице DALLE 2 (https://t.me/gonzo_ML/919) и Imagen (https://t.me/gonzo_ML/980).

Обучение нейросети через SGD идейно похоже на обратный диффузионный процесс: стартуем с рандомной инициализации и последовательно обновляем веса, пока не достигнем высокого качества на заданной задачи. Свой подход авторы назвали neural network diffusion или p-diff (от parameter diffusion).

Идея и реализация просты и по-своему красивы.

Во-первых, мы собираем датасет с параметрами нейросетей, обученных SGD и обучаем на нём автоэнкодер, из которого потом возьмём latent representation (можем это делать не на полном наборе параметров, а на подмножестве). Вторым шагом мы обучаем диффузионную модель, которая из случайного шума сгенерит latent representation, который в свою очередь через декодер обученного на первом шаге автоэнкодера мы восстановим в сами веса. Теоретически можно было бы и обучить диффузию на самих весах сразу, но это требует сильно больше памяти.

Для автоэнкодера параметры преобразуются в одномерный вектор, также используется одновременная аугментация шумом входных параметров и латентного представления. Обучение диффузионной модели -- это классический DDPM (https://arxiv.org/abs/2006.11239). Использовались 4-слойные 1D CNN энкодер и декодер.

Проверяли на картиночных датасетах MNIST, CIFAR-10, CIFAR-100, STL-10, Flowers, Pets, F-101, ImageNet-1K и на сетях ResNet-18/50, ViT-Tiny/Base, ConvNeXt-T/B.

Для каждой архитектуры накапливали 200 точек для обучения (чекпойнты последней эпохи). Я не до конца уловил, что именно они сохраняли, говорят про два последних слоя нормализации (только параметры BatchNorm’а чтоли?) и фиксированные остальные параметры. В большинстве случаев обучение автоэнкодера и диффузионки требовало 1-3 часа на одной A100 40G.

На инференсе генерят 100 новых параметров, из них оставляют один с максимальным перформансом на training set, его оценивают на validation set и этот результат и репортят.

В качестве бейзлайнов выступают 1) оригинальные модели и 2) ансамбли в виде усреднённого супа файнтюненных моделей (“Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time”, https://arxiv.org/abs/2203.05482).

Результат в большинстве случаев не хуже обоих бейзлайнов. То есть выучивается распределение high-performing параметров. Метод стабильно хорошо работает на разных датасетах.

Провели много абляций на ResNet-18 + CIFAR-100.

Чем больше моделей было в обучении, тем лучше. Метод генерит более качественные модели для слоёв на любой глубине. При этом на последних слоях результат самый высокий (предполагают, что это из-за меньшего накопления ошибок во время forward prop). Аугментация шумом в автоэнкодере очень важна, особенно для латентного состояния (а лучше одновременно и для входа тоже).

Это всё было для подмножества весов. Проверили также на генерации полного набора весов на маленьких сетях MLP-3 и ConvNet-3 и MNIST/CIFAR-10/100. Размеры сетей здесь 25-155к параметров. Также работает.

gonzo-обзоры ML статей 2024-02-24 22:03:50

Дополнительно обучили ResNet-18 на трёх случайных сидах, и посмотрели есть ли паттерны в параметрах. Какие-то вроде есть (по мне так картинки вообще не наглядны, я не понял какие именно паттерны они там увидели). А если они есть, то видимо их и выучивает предложенный подход.

Поисследовали разницу между оригинальными и сгенерированными моделями чтобы понять, 1) не запоминает ли p-diff тренировочные данные, и 2) есть ли какая-то разница между параметрами, получаемыми при файнтюнинге или добавлении шума и новыми сгенерированными. Похожесть моделей оценивали по Intersection over Union (IoU) для их неправильных предсказаний. Такого способа определения похожести моделей я раньше, кажется, не встречал (но может я что-то пропустил и это давно уже общее место?)

Разница между сгенерированными моделями получилась заметно больше, чем между оригинальными. И даже максимальная похожесть между сгенерёнными и оригинальными заметно ниже, чем между оригинальными. То есть метод генерит какие-то новые параметры. Файнтюненные и зашумлённые версии моделей кучкуются в каких-то своих узких кластерах, метод с диффузионкой генерит гораздо разнообразнее (и подчас с более высоким качеством). t-SNE от латентных представлений p-diff сильно отличается от оригинальных и шумных версий моделей (про шумные, наверное логично, что они там же где оригинальные, мы же обучали на устойчивость к шуму).

В целом интересная тема. Действительно, почему бы не появиться диффузионному оптимизатору? Да и для инициализации тоже может быть тема (если тем самым, например, на пару эпох можно всё ускорить?). Ждём развития!

Метаверсище и ИИще 2024-02-24 15:44:15

Илон Маск приподвзорвал интернетик, намекнув на возможное сотрудничество между Твиттором и MidJourney.

"Мы ведем интересные переговоры с Midjourney, и, возможно, из этого что-то получится, но в любом случае, так или иначе, мы сделаем возможным генерацию Арта на платформе X".

Мне эта новость нравится тем, что у Midjourney станет явно больше денег. И, возможно, им достанутся некоторые наработки от Grok (LLM от Маска) - встраивание трансформеров в генерацию картинок становится мейнстримом, а промптинг в Midjourney до сих пор носит заклинательно шаманский характер. Ждем от новых версий MJ промтинга на обычном языке, как в DALL·E 3 и демках Stable Diffusion 3 и Cascade.

Метаверсище и ИИще 2024-02-24 15:27:37

ИИ-видео-генератор от Snap.

Результаты и общий замысел мне нравятся гораздо больше, чем Stable Video Diffusion с его 4 сек макс, ибо это не оживление картинок и не модификация существующих image-моделей к генерации видео, а создание видео "с нуля".
Вот, что пишет Сергей Туляков:

Все видео генерируются с помощью нашей новейшей модели Snap Video. Мы представляем новую архитектуру на основе трансформеров, которая очень хорошо масштабируется по количеству параметров и графических процессоров (тут можно предположить, что в условиях дефицита GPU в Снапе сделал очень хорошую оптимизацию).

Это архитектура, ориентированная именно на видео - мы не адаптируем существующие модели изображений для создания видео, а относимся к видео как к "пассажирам первого класса" (first class citizens).

Вот тут можно найти сравнения с Пикой, Runway и другими:
https://snap-research.github.io/snapvideo/gen2_pikalab_floor33.html

Тут, конечно, привычный трюк сравнений черрипиков с нечеррипиками.. Но в шапке поста прям сторрителлинг.

А полный фарш с информацией тут:
https://snap-research.github.io/snapvideo/

Низкое разрешение в примерах смущает, качество тоже, но работа с пространством и динамика анимаций мне нравятся. Это уже больше симуляция трехмерного мира (пусть и низкого разрешения), чем шевеление пикселей на картинках и параллаксы.

Кода нет, и где это можно будет попробовать непонятно, но я знаю команду Снапа еще по давним киевским CG Event-ам, и отчаянно им симпатизирую.

Метаверсище и ИИще 2024-02-23 22:19:59

Stable Video 1.1 открыли для всех. Можно играцца.
Я уже писал про нее 3 недели назад.
https://t.me/cgevent/7418

А теперь после демо SORA это выглядит бессмысленно.
Но вы попробуйте ещё раз:
https://www.stablevideo.com/

4 секунды макс, и как пишет Эмад

Something to note: Stable Video was trained from Stable Diffusion 2 (ie a 2022 model!)

Dreams and Robots 2024-02-23 21:51:38

В общем, пока мы все обсуждали видео от Соры, которую еще никто в глаза не видел, Suno сделали настоящую революцию. Инструментальный режим в третьей версии генерирует практически идеальную продакшн-музыку.

Вы делаете игру, а денег не то, что на Ханса Циммера, но даже на Мика Гордона и Майкла МакКана не хватает? Не беда. За 20 баксов и пару часов можно сделать готовый саундтрек, который будет звучать вполне адекватно на большинстве консьюмерских девайсов.

Я вот так и сделал, презентую вам OST к выдуманной игре про роботов, которые видят сны.

Пара советов начинающим композиторам:
- Не пишите в стиле слово Orchestral, если не хотите банальную корпоративную музыку со второй страницы выдачи AudioJungle.
- Используйте в промпте стилистику (sci-fi themed exploration theme), настроение (calm, sad, aggressive, thoughtful) и набор инструментов (Piano, Cellos, Bells, Toms, Violins, Pads, Moog).
- Если мелодия прерывается на середине, используйте функцию Continue from this Song.
- Если трек логично закончился, Суно может добить хронометраж повтором. В этом случае просто отрежьте финал в своем любимом аудиоредакторе.

Композиторам успехов!

#suno

Метаверсище и ИИще 2024-02-23 12:34:59

А Эмад тем временем троллит всех в Твитторе.
Я, говорит, тестирую нечто за пределами SD3. Накидайте мне промптов..
Картинки тут:
https://www.reddit.com/r/StableDiffusion/s/Bur04ALVDq

Метаверсище и ИИще 2024-02-23 12:30:27

Stable Diffusion 3. Мясо

Давайте я вам поясню за SD3 за пределами того, что вам её пообещали в интернете и взорали про это в новостях.

Первая и самая главная особенность - понимание промпта. Мы это уже углядели на примере Stable Cascade (тут с таймингом пресс-релизов, конечно, ад, но пишут, что до релиза SD3 еще довольно много времени).

Профессия заклинателя промптов типа "[[осторожно]], ((тут)) ((рыбу:1.2)) {заворачивали}, wow, 4K, конецглазам, ивоще" потихоньку уходит в прошлое. Теперь модели начинают "понимать" промпт, там, грубо говоря, внутри свои LLM.

Когда-то DALL·E 3 задрал планку до небес в этом направдении, теперь остальные подтягиваются. SD3 и SC слушаются промпта в разы лучше чем SDXL.

Про качество картинок - надо смотреть. На шум, на детали, на мыло, на искажения. Все что показано на сайте очень годно, но туризм с эмиграцией путать не стоит и как будет на деле - покажут тесты и сравнения.

Про текст. Да, как и SC она хорошо умеет в текст. Но меня всегда удивляла упоротость на этой фиче. Вы часто рисуете текст на картинках руками? Ну то есть не выбирая шрифт, а попиксельно? Кроме того, я предвижу кейсы, когда модель зафикачила картику с копирайченным шрифтом (очень похожим, ок). Повалят иски. А разработчики начнут шарахаться от этой фичи обратно в тину.

Да, пальцы. Лучше.

А теперь два главных вопроса: скорость и требования к памяти.

Про скорость ничего сказать пока нельзя. Об этом ни слова.

Про память. Будет несколько моделей от 800М параметров до 8 миллиардов.. Сколько их будет неясно.

А теперь следите внимательно.
Stable Diffusion 1.5 - примерно те же 800М параметров
SDXL - 2.3B

Помните требования к памяти для SDXL?
А теперь умножайте их на 3.3 и получите VRAM для старших моделей SD3.

Но. Мостак на реддите пишет, что все эти разные модели можно будет квантизировать вплоть до int4. Ну то есть сжимать веса (размер файлов модели) в 2, 4 и более раза. С потерей качества генерации.

Дальше все это начинает напоминать ситуацию с LLM. Разные размеры моделей, разные степени пожатости этих разных моделей. Таблицы сравнения: что лучше пожать бОльшую модель или взять непожатую меньшую модель. Ну и многочисленные сравнений "на глаз". Для LLM есть кривые-косые бенчмарки, для картинок есть "на глазок".

Также Мостак говорит, что тренировать модели SD3 можно будет на 16Гиг памяти. За кадром вопрос (отныне и во веки веков) - которые из моделей от 800M до 8B?

Ну и я боюсь представить требования (и скорость) для старших непожатых моделей SD3..

Ну и последнее. На сайте стабилити две трети текста про цензуру и безопасность. Народ на Реддите: "Эмад, ты вообще нормальный, ты с народом общался из коммьюнити?".
Эмад, там же: "На чилле ребята, мне так легче общаться с регуляторами"

В общем думаю, нас ждем зоопарк моделей, потом зоопарк в квадрате от по разному пожатых моделей из этих моделей. И зоопарк в кубе от натренированных чекпойнтов из пожатых по разному моделей из модельного ряда SD3 от 800M до 8B.

А пока можете начать тренировать модели для Stable Cascade, разминаться:
https://www.reddit.com/r/StableDiffusion/s/jTZ6eownFy

Метаверсище и ИИще 2024-02-23 11:51:11

Я тут вчера сдержанно наезжал на Молниеносную SDXL.
Точнее не восторгался, как весь интернетик.
А сегодня обнаружил вот такой демо-сайт, где она генерит почти в реальном времени. Попробуйте, забавный опыт. Мы это уже проходили с SDXL Turbo, но тут все бесплатно вроде.
Ну и вот этот вот мгновенный отклик - ключевая фишка будущих продуктов для художников, а не для программистов.
https://fastsdxl.ai/

эйай ньюз 2024-02-22 15:30:26

Еще генераций от Stable Diffusion 3.

Интересна первая генерация по промпту: “Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat”.

Не понятно, на сколько долго это черипикали, но выглядит так, что модель неплохо понимает пространственную композицию объектов. Точно лучше чем SDXL.

@ai_newz

CGIT_Vines 2024-02-22 15:17:36

Заанонсили Stable Diffusion3!
Набор моделей варьируется от 800M до 8B параметров.
Безопасность в анонсе на первом месте! Как бы генерации хуже не стали.

Вейтлист тут
Даты выхода пока нет.

эйай ньюз 2024-02-22 15:12:25

🔥Stable Diffusion 3 на подходе!

Stability.ai наконец публично анонсировали то, о чем я упоминал в этом посте.

Модель основана на DiT трансформере (статья от Meta AI), только теперь она text-conditioned, и там будет интересный трюк, как это сделали в архитектуре SD3.

- За счет этого модель умеет круто генерить текст.

- Будут несколько моделй от 800M параметров до 8B. Трансформер хорошо масштабируется.

- В основе лежит формуляция диффузии через Flow Matching (статья от Meta AI). То есть учатся именно на линейных траекториях между шумом и реальными картинками.

Статьи пока нет
Вэйтлист

@ai_newz

Метаверсище и ИИще 2024-02-22 14:15:55

В общем Гугл опять отжигает.
Когда-то они не смогли побороть проблему, что их ИИ распознает афроамериканцев на картинках как горилл.
Теперь выкрутили рульки в другую сторону. Население планеты и исторические личности сильно потемнели. Некоторые, типа папы Римскага, вообщем сменили пол.

В сети флешмоб. Народ пытается генерить в Гемини "счастливые белые пары" и получает визгливый отказ - типа расовая дискриминация. Чорные пары генерит норм.

Сегодня гугл уже извиняется везде:
https://www.foxbusiness.com/media/google-apologizes-new-gemini-ai-refuses-show-pictures-achievements-white-people

Пост об этом напишу завтра, а пока поглядите, как Гугл играет в игру "мы не такие" и переписывает историю.

Вишенка: говорят (думаю шутка): что в команде разработки Google Gemini на 2 инженеров приходится 29 менеджеров по расовому и гендерному разнообразию.

Метаверсище и ИИще 2024-02-22 13:27:32

Помните, я тут все время распинаюсь, что весь генеративный контент уже вполне годится для соц-сетей. А вы такие: нет, мы не такие, мы за искусство!
OpenAI завели свой тикток. И постят туда SORA генерации. Выглядит как ОЧЕНЬ КРУТОЙ ТИКТОК.
Я когда увидел эту собаку, я точно не смог сразу сказать - это реально пса так замучили или ИИ нас троллит. Стал приглядываться к буквам на худи.
И свет, Карл! Свет!

Короче, в тиктоке вы уже не сможете отличить генератив от кожаного видео. Ну ок, если вы из постпродакшена, то скажем, что 95% населения ТикТока не смогут.

Ждем, когда ИИ закормит ТикТок видосами до потери сознания (тут про сознание спонтанная шутка).

А вы пока идите залипать сюда:
https://www.tiktok.com/@openai
Хорошо хоть они дозируют дозу, иначе вы бы залипли в матрице.

Метаверсище и ИИще 2024-02-22 13:12:41

FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition

Давайте я вам проясню за FreeControl, которые в сеточке называют убийцей ControlNet-а.

Да, это крутая штука, код которой выпустили 3 дня назад, уже прикрутили в Комфи и вот-вот запилят в A1111. Он позволяет контролировать картинку похожими на ControlNet инструментами и добывать из картинок разную информацию.

Разница:
ContolNet - это куча обученных моделей. Гигабайты, которые вы кладете в нужные папочки. И код к ним, которые все это читает и исполняет.

FreeControl - это просто код. Точка. Он не использует никакие предобученных моделей.

Плюсы - скорость, удобство установки, простота и частота обновлений.
Минусы - качество и контроль. FreeControl скорее всего будет проигрывать в качестве и точности контроля КонтролНету.

Вопрос в задачах. Возможно он закроет 90% ваших нужд. Надо тестировать.

В примерах они умеют читать PointCloud, интересно...
https://genforce.github.io/freecontrol/

Метаверсище и ИИще 2024-02-22 11:50:02

SDXL-Lightning: Progressive Adversarial Diffusion Distillation

Реддит принес новости про Молниеносную SDXL от ТикТока.
Это еще одна вариация на тему ускорителей Stable Diffusion.
Ее лоботомируют разными способами, чтобы радикально увеличить скорость.
Таких ускоренных лоботомированных моделей уже несколько: SDXL Turbo, LCM и другие. SDXL-Lightning здесь, похоже, не лучше и не хуже других.
Цена? - Правильно, качество.

Вопрос, насколько вы готовы жертвовать качеством.

ВЫ можете попробовать сами тут:
https://huggingface.co/spaces/AP123/SDXL-Lightning
Полный опен-сорс, есть конект к Комфи.

Я не впечатлен. Stable Cascade выглядит сильно перспективнее, когда ее допилят.

P/S/ Жертвовать качество ради скорости можно в угоду интерактиву. И ловким интерфейсам для нормальных людей. Тут этим и не пахнет

Метаверсище и ИИще 2024-02-22 11:29:54

Зумеры переизобрели раскраски, кальку и трафарет. За 3500.

Метаверсище и ИИще 2024-02-22 11:21:27

Комментария дня....

Метаверсище и ИИще 2024-02-22 10:37:49

Помните я писал, что Reddit продает за 60 миллионов свои данные одной неназванной компании?

Сегодня стало известно, что это Гугл.

Мало ему своих....

https://www.reuters.com/technology/reddit-ai-content-licensing-deal-with-google-sources-say-2024-02-22/

эйай ньюз 2024-02-22 10:36:00

Челик провел любопытное сравнение между трекингом рук в Apple Vision Pro и Quest 3.

На голову надел AVP, а на шею нацелил Quest 3, визуализировал кипойнты и склеил два видео-стрима, которые выдаются в режиме passthrough в обоих девайсах.

Верх: AVP
Низ: Quest 3

Судите сами!

Кстати, команда, которая занимается трекингом есть и в Цюрихе, сидят недалеко от меня.

@ai_newz

Neural Shit 2024-02-22 07:53:04

Ладно, нейровидосы на которых Уилл Смит ест спагетти уже были.

Настало время нейровидосов, на которых спагетти едят Уилла Смита

Метаверсище и ИИще 2024-02-21 23:46:49

От Альпаки пришло приглашение попробовать Хрому - нет, это не векторная база, это новое web-приложение для рисования с помощью Stable Diffusion.

В 2024 году это смотрится очень и очень плохо. Такое впечатление, что чуваки застряли в конце 2022.

Попробуйте, может у вас что-то получится.

А я позже напишу, почему будущее за Креа и Визкомом, и почему у нас до сих пор такие адовые UI/UX в большинстве генераторов.

А Хрома мне через раз пишет "я тут сгенерила какое-то непотребство и тебе не покажу". Там стоит adult filtr видать.

А еще у Альпаки был плагин для фотошопа и Stable Diffusion.

https://www.alpacaml.com/

Метаверсище и ИИще 2024-02-21 18:58:16

Был такой фильм "Боги, наверное, сошли с ума".
Почитайте, мы уже близко...
https://t.me/theworldisnoteasy/1897