Метаверсище и ИИще страница 8. Показано 50 статей из 557
2024-01-29 13:51:47
Ну и для тех, кто лихо отличает кожаное искусство от бесовских генераций, вот вам тест.
Отличите кожаные лица от сгенерированных.
Я нормально так шел, но в конце несколько раз ошибся. Итого 6/10 правильных.
И нет, это не Stable Diffusion, это очень старый StyleGAN2. Я, кстати, просто узнал некоторые лица из старых статей про СтайлГану, это мне помогло, иначе бы облажался еще сильнее.
Ну и к вопросу о распознавательных способностях кожаных:
Гиперреалистичные лица, использованные в исследованиях, как правило, были менее отчетливыми, говорят исследователи, и были настолько близки к средним пропорциям, что не вызывали подозрений у участников. И когда участники смотрели на реальные фотографии людей, они, казалось, зацикливались на чертах, которые отклонялись от средних пропорций — например, деформированное ухо или нос больше среднего, — считая их признаком участия ИИ.
Тестируем себя тут (нужно логнуться гуглом):
https://www.nytimes.com/interactive/2024/01/19/technology/artificial-intelligence-image-generators-faces-quiz.html
2024-01-29 13:40:35
Ну и сейчас в коментах (после поста про Канье Уэста) начнет приподвскипать "мынетакие" или "этовсёбесовщина".
Вы пока послушайте пока пару каверов от Suno (спасибо старым хакерам), и поглядите как ловко он срисовал черты постсовецкой попсы и шансона, замешав в кучу Шатунова и Новикова. А боссанова - как пример того, что ИИ умеет не только в бессодержательный хардбасс или упоротый рэп, а кое-что знает про более сложные рисунки.
Я пока слушал боссу, понял, что мне нравится, как вокал немного "отстроен" от аранжировки (в этом есть фишка и новизна), а некоторые мелодические ходы заставят матерых композиторов побежать до клавиш и записать те самые фишки, которые потом можно присунуть в будущие хиты.
2024-01-29 13:23:31
Ну, за видеоклипы.
Вот держите последний крип Канье Уэст. Жесткий ИИ-кринж в низком разрешении.
У него даже есть как бы режиссер (Jon Rafman). Народ в сети хлещется - это Runway или Stable Video Diffusion.
Хотя какая разница - почти все генератовы ИИ-видео сейчас умеют в такое.
Низкое разрешение называют "художественным приемом" и осторожно замечают, что музика (пока еще) живая, то есть не ИИ-шная.
Хотя, судя по нашим экспериментам с Suno.ai, который испольняет в рэп как родной, и наличием нецензурированных LLM-ок типа Дельфина, создание аудио-трека - вопрос пару кнопок и пары промптов.
За сим остается только бренд, имя и, как говорят достопочтенные искуствоведы, провенанс.
В общем, сейчас разберемся с генераторами видео-клипов, а потом приступим к однокнопочным генераторам брендов. Впрочем chatGPT уже вовсю пишет маркетинговые стратегии и генерит логосы, а в инсте жируют цифровые твари-инфлюенсеры.
Однокнопочные артисты не за горами.
Готовы потреблять синтетическое массовое искусство, не отличимое от кожаного? Горстями.
https://www.youtube.com/watch?v=riMf8FdOC5w
2024-01-29 12:27:18
Вот этут статью можно порекомендовать хотя бы из-за первого абзаца:
AI-хайп, честно говоря, слегка задолбал. Кажется, что все вокруг только и делают, что внедряют в продукт как можно больше AI фичей, поднимают миллионы на оболочку для ChatGPT, осваивают сто первый AI-тул и отдают свою работу роботам, а сами пьют лавандовый раф и делают подкасты про успешный успех. Все эти возвышенные презентации про amazing и awesome инновации от людей, которые слабо себе представляют, чем энкодер отличается от декодера и почему трансформеры в нейросетях не сражаются с автоботами, мало того, что набивают оскомину и отнимают время, так ещё и погружают в грёзы бизнес-руководителей и создают крайне завышенные ожидания.
Я терпеть не могу смотреть видосы (олдскул, тексты и картинки плиз). Поэтому особенно чувствителен к добротным текстам.
Хороший срез того, что мы сейчас имеем по поводу LLM. Немного неровно с точки зрения подробности описания одних аспектов и сжатости других, но в целом хороший научпоп, переходящий в гик-поп.
Почитайте, сверьтесь со своим представлением про LLM 2024. Игорь написал практически повесть, а не статью.
https://habr.com/ru/articles/768844/
2024-01-29 12:18:27
Кстати, по поводу предыдущего поста с таймлапсом жизни.
Я думаю, что сейчас уже реально собрать однокнопочное решение, которое бцдет генерить подобные ролики по одной фотке (или по описанию персонажа).
chatGPT напишет сколько угодно рандомных историй, затем превратит это в набор из 70-150 промптов. А дальше немного автоматизации, которую тоже можно поручить ИИ.
2024-01-29 12:13:13
Истории без нарратива уже можно рассказывать вот таким образом.
Это не первая попытка игры в "биографический таймлапс", но обычно это эксперименты с крупным планом.
Если бы не 3-4 руки, периодически появляющиеся в кадре и традиционные проблемы с пальцами, то мой глаз бы не дергался - автор явно не напрягался с чисткой и пост-обработкой.
Ну и таймлайн в конце немного странный - с пожилого возраста проходит еще 50% всей длительности.
Это я к тому, что у контента есть препродакшен и пост-продакшен и они, собственно и делают продукт. Отсекая лишнее, добавляя нужное.
Но я оставлю это техническое демо тут, чтобы напоминать себе потом, где мы находились в начале 2024 года. И сколько стоило бы собрать подобноее без ИИ.
https://www.instagram.com/reel/C1wOp5mPgIA/?igsh=ZXU2bHBmZTF6cXV5
2024-01-27 13:40:12
Миссия выполнима!
Помните все эти шпионския фильмы, где по снимку из космоса Том Круиз читает номера машин?
Китайцы из Shanghai AI Lab выкатили вот такой апскейлер и ресторатор убитых картинок.
"Для обучения модели мы собираем набор данных, состоящийиспользовали датасет из 20 миллионов высококачественных изображений высокого разрешения, каждое из которых было размечено(!). "
"SUPIR позволяет восстанавливать изображения, руководствуясь промптами. Более того, мы вводим негативные промпты для дальнейшего улучшения качества восприятия. Мы также разработали метод, ориентированный на восстановление, чтобы устранить проблему достоверности, возникающую при восстановлении на основе генерации"
Тут я в замешательстве: "ты распознал плохой номер, распознай другой".
Или как в этом примере: "Это Дачия Дастер, тупица, что ты там мне за лого нарисовал, переделай".
Но сама идея управляемого апскейла мне нравится. Пока все апскейлеры генерят(дорисовывают) то, что им в голову придет. А тут можно допинывать до годного и бить по рукам(мозгам).
https://x.com/alexcarliera/status/1750549285664686450
Поглядите на примеры тут:
https://supir.xpixel.group/
И хорошая новость: код есть! Го распознавать номера со спутника!
https://github.com/Fanghua-Yu/SUPIR
2024-01-27 13:06:49
Если у вас еще не раскатали фичу упоминания конкретных (разных) Джипитишек в одном чате, то поглядите как это выглядит. Можно помянуть одну Джипитишку, поговорить с ней, потом взять ее результат и пихнуть в другую Джипитишку (помянув ее предварительно). Все в одном окошке, без копипаста.
В окошке чата появляетсяя надпись в заголовке - с какой Джипитишкой вы сейчас общаетесь. А сам чат служит "базой знаний" - контекстом, к которому все Джипитишки имеют доступ.
Представьте, когда можно будет указывать Джитпитишки программно, то есть не одну за раз
в меню, а на основе концепции микро-агентов, бросать задачу командам из Агентов-Джипитишек.
2024-01-27 11:34:39
Кстати, гугль вообще не в курсе (ну или Бард что-то скрывает)
Фичу раскатали ночью. Индексирование идет медленно.
2024-01-27 11:33:31
Джтиптишки теперь можно поминать всуе. То есть в чате.
В телеге в группе можно нажать @ и на вас вывалится список участников, из которого вы можете выбрать того, кого вы хотите помянуть и чье внимание привлечь.
Теперь также происходит в chatGPT!
Вы набираете @ и на вас вываливается список Джипитишек, которые вы недавно использовали (то есть не все, а те, которые вы пробовали, социальная механика).
После того, как вы выбрали из списка, чат будет происходить именно с этой джипитишкой. Ее название будет в заголовке чата.
Что мы имеем сейчас?
Можно выкликать разные джипитишки в одном чате (но одну за раз).
Они видят контекст и предыдущую историю.
Они не в курсе, что есть другие джипитишки в мире - они общаются только с вами напрямую, через интерфейс чата.
К сожалению пока нельзя внутри одной джипитишки вызвать другую типа: "возьми вывод @агент1 скорми его @агент2, забери результат и попроси @агент1 все переделать.".
Иначе у нас бы под рукой была уже мультиагентность, а вызовы агентов-джипитишек были похожи на вызовы фуенкций.
Выкликание конкретной джипитишки идет через клик пользователем в пункт меню, а не программно.
Но есть гипотезы, что вызовы агентов-джипитишек завезут в скором будущем. Будут GPT-баттлы.
И хотя я скептичен по поводу GPT Store и его монетизации (скоро напишу), идея (не относящаяся к Стору) про формирование облака своих подручных агентов-джипитишек мне очень нравится.
2024-01-26 14:47:49
Ну и коль скоро меня сегодня понесло внутрь кожаной башки, то поговорим про технологический компот из VR, ИИ и психотерапии.
Смотрите, пациент что-то говорит своему ИИ-терапевту. ИИ конвертирует речь в текст, RAG-выкликает базу по когнитивно-поведенческой терапии (в данном случае), классифицирует случай, и генерит (внимание) Generated Reality: картинки, эффекты, музыку, звуки и речь. Все это попадает в башку пациента через VR-шлем. Он реагирует. Ну и так далее.
Это свежая статья в Nature, а не влажные мечты стартаперов.
Было обнаружено, что цифровой аватар применяет основные психотерапевтические методы. Он часто делал наблюдения, которые отражали понимание проблем пользователя (например, “ Ваши заботы о вашем здоровье и вашей жизненной ситуации явно вызывают у вас много страданий”). Нормализуя чувства (“Логично чувствовать себя неудачником, когда жизнь становится подавляющей ”), выражая сочувствие (“ Мне очень жаль слышать о вашей потере работы”), и демонстрируя сочувствие (“Это должно быть непростое время для вас”), XAIA, как было отмечено, передает понимание и сострадание. Он также предлагал валидацию и похвалу, где это уместно (например, “ Ваша практика не принимать эти отношения как должное действительно заслуживает похвалы ” ).
Участники описывали цифровой аватар как эмпатичный, понимающий и способствующий созданию терапевтического контакта.
Подробности в статье:
https://www.nature.com/articles/s41746-024-01011-0
КПТ - как довольно прямолинейная терапия, хорошо формализуется и загоняется в RAG для дальнейшего обращения в ней.
Ну и тут явление гораздо шире. Средный американец (и не только) часто не может себе позволить даже первичную юридическую, медицинскую, налоговую или другую узкоспециализированную консультацию. А вот chatGPT может лихо ответить на 99% вопросов первичной консультации. Бесплатно или за 20 долларов в месяц.
2024-01-26 14:25:05
Почему я верю в нейрофидбек.
Просто я прочитал две статьи на Снобе.
https://snob.ru/selected/entry/18318/
https://snob.ru/selected/entry/18427/
У человека жена больна эпилепсией. Это как бы приговор с точки зрения возможности иметь детей. Но у них растет дочь.
Ну и Леша - это мой однокурсник, поэтому у меня была возможность узнать многое за пределами статьи.
Леша по фану гоняет свою кожно-гальваническую реакцию к любым значениям. Натренировался.
С ЭЭГ сложнее, но тоже можно.
2024-01-26 14:13:23
ИИ и осознанные сновидения
Ух, люблю такое.
И хотя довольно скептичен по отношению с всем ободкам, оголовьям, обручам - соотношение полезный сигнал/шум там явно не в пользу первого, но сама идея кормить в ИИ не промпты, а информацию из мозга (ну и вообще "напрямую", минуя вербалку) очень интересная.
Но тут ребята замахнулись еще в обратную сторону: вводить фидбек полученный от ИИ обратно в голову, в помощью "ультразвуковых голограмм для нейростимуляции".
Все это звучит как маркетинговый буллшит, выглядит тоже. Но повторюсь, сама идея такого нейрофидбека мне нравится (я вообще верю в нейрофидбек).
Итак по порядку.
Стартап Prophetic только что представил Morpheus-1, описанный как первый в мире "мультимодальный генеративный ультразвуковой ИИ-трансформер", предназначенный для изучения человеческого сознания через управление осознанными сновидениями (с козырей, однако!).
Подробности:
Morpheus-1 сочетает в себе машинное обучение, данные ЭЭГ и ультразвуковые волны для обнаружения REM-сна и запуска сновидений, которые пользователи могут контролировать.
Обруч на голове читает мозговые волны, а ультразвуковые лучи стимулируют определенные зоны мозга, связанные с осознанными сновидениями. Вот тут и есть цикл обратной связи.
Встроенные аккумуляторы, Bluetooth и WiFi позволяют работать в течение всей ночи и синхронизировать данные, а приложение-компаньон отслеживает фазы сна и собирает данные о сновидениях для совершенствования моделей ИИ.
"Сочетание ультразвука и моделей машинного обучения (созданных на основе данных ЭЭГ и фМРТ) позволяет нам определять, когда сновидец находится в состоянии REM, чтобы вызвать и стабилизировать осознанные сновидения"
Morpheus-1 is a 103 million parameter transformer model trained on 8 GPUs for 2 days.
We engineered this from scratch and filed a provisional utility patent application.
На итоге, хотя я вижу много плохих маркеров на сайте, сама идея "прямого доступа" мне нравится и в этом направлении будут копать многие исследователи, взрослые притом.
Сейчас мы общаемся с chatGPT словами и на выходе от него, тоже слова, которые мы вводим в голову глазами или ушами. А прямой доступ - это когда все это происходит мимо второй сигнальной системы. Уровнем ниже. Без слов. В тишине. Как у Нео.
Маск, давай уже свою иголочку скорее. Без этих вот обручей на башке.
Вчерашний твит про трансформеры
https://twitter.com/PropheticAI/status/1750534355242418300
Сайт:
https://propheticai.co/
2024-01-26 14:10:59
ИИ и осознанные сновидения
2024-01-25 15:00:09
Ну, за Topaz AI.
Держите корейский апскейлер, убиратель блюра и вообще улучшайзер видео.
Выглядит убойно. Еще более убойное название название:
Flow-Guided Dynamic Filtering and Iterative Feature Refinement with Multi-Attention for Joint Video Super-Resolution and Deblurring
Но вопрос в том, что даже когда появится обещанный код (вот-вот), эта штука так и останется в руках повелителей PyTorch и гиков.
Возможно, кто-то смастерит демо. Но будет ли это заменой Топаза - сильный вопрос. Причем даже не по качеству, а по продуктовости.
А что до качества, то все апскейлеры грешат артефактами - они порождают новые сущности, которых не было на исходных материалах и это иногда забавно.
Но, повторюсь, выглядит очень неплохо и для видосов с телефона может быть находкой.
https://github.com/KAIST-VICLab/FMA-Net
2024-01-25 14:38:14
Open Source Video Outpainting (от Алибабы)
Ого, смотрите что пригнали умные папищики в коментариях.
Не Пикой единой - тут расширение (outpaint) видео в любых пропорциях, из стоячего в лежачее и наоборот.
И все это с кодом и даже очень странным демо.
Я уж подумал, не чит ли это, уж больно ловко видео расширяется до нужного (нет ли тут uncrop), но потом поглядел на пальцы у девушки и успокоился. Не врут. ИИ решает.
Все тут:
https://fanfanda.github.io/M3DDM/
2024-01-25 14:15:28
Для басистов.
Ну и я не мог пройти мимо такого ИИ-видосика.
Если вы не читали, то вот мой пост про AI и басистов и про признание в любви к Davie504:
Сам я когда-то играл в школе "на танцах" на бас-гитаре и обожаю анекдоты про басистов.
Но вот этот твит послужил поводом снова заглянуть к Davie504 и обнаружить:
Соло на басу без струн
Соло на 24-струнном басу
И много другого добра.
Бывших басистов не бывает, поэтому иногда будут появляться такие вот посты.
2024-01-25 13:48:19
ИИ-барабанщики.
Держите ссылку на очень забавный твиттор, где чувак реально экпериментирует с видеогенераторами и звуком, создавая смешные короткие ролики (для тик-ток самое то).
Я залип на басистах(а как же) и барабанщиках. Думаю, что для создания музыкальных видео все эти ИИ-видеогенераторы займут свою нишу. Как виджеинг или процедурные генераторы.
Нет нужды рассказывать истории, нужно шевелить нейрончики и создавать ощущения.
Для рейвов вообще будет огонь.
https://twitter.com/EclecticMethod
https://linktr.ee/eclecticmethod
2024-01-25 13:34:07
Ну и кстати, за Тик-ток. Это новый Гугл, если что.
Тут Адобченко решил стать МакКинзи выпустил отчет про использование Тик-тока как поисковой платформы.
Выжимка от Deepl:
Более 2 из 5 американцев используют TikTok в качестве поисковой системы.
Почти каждый десятый представитель поколения Zer ЧАЩЕ использует TikTok в качестве поисковой системы, чем Google.
Более половины владельцев бизнеса (54%) используют TikTok для продвижения своего бизнеса, публикуя посты в среднем 9 раз в месяц.
Каждый четвертый владелец малого бизнеса использует инфлюенсеров TikTok для продажи или продвижения товаров.
А теперь берем видеогенератор от Тик-тока добавляем туда щепотку китайских LLM-ок, которые становятся вполне годными и конструктор аватаров и получаем однокнопочное решение "Продвижение бизнеса в Тик-токе с любой интенсивностью".
Отчет интересный, но смахивает на продвижение Free TikTok video creator от того же Адобченко. Ссылка на который ненавязчиво присутствует в тексте. Но тем не менее, там очень забавные цифры внутри.
https://www.adobe.com/express/learn/blog/using-tiktok-as-a-search-engine
2024-01-25 13:21:23
Видео-генератор от Тик-Тока и сравнение генераторов.
Я не очень люблю постить работы без кода и демо. 90% таких папирусов не доходят до продукта и остаются поводом только для индекса цитирования.
Но за ByteDance слежу внимательно. Они, конечно, в лучших традициях просто пылесосят опен-сорс, но их ресурсы безграничны, и размер датасетов решает. Плюс Тик-Ток - это первый кандидат на потребление ацких видеогенераций и их вирусную дистрибуцию.
Вот поглядите, что они выкатили - MagicVideo-V2.
Выглядит все примерно, как у людей. Интерес представляет раздел, где сравниваются разные генераторы. Конечно, если привалить колор-коррекцию на свои ролики, а остальных сильно сатурировать, то будет удобно показывать результаты (сарказьм).
Ну и мы находимся в точке, где все генераторы примерно одинаковы в плане работы с промптами. Но в отличие от картинок, которые можно поправить в фотошопе, такие видосы не очень пригодны к редактированию - у вас нет исходника, остается только нехитрый композ.
Ну и мое внимание опять привлекли видосики со спец-эффектами. Вангую появление ИИ-футажей именно для огня, дыма и прочей пиротехники.
https://magicvideov2.github.io/
2024-01-25 11:59:49
Видео-марафон.
После вчерашнего поста про новый-старый видеогенератор от Гугла поресерчил тему видео (и разгреб папку Saved в телеге, куда сбрасывал годноту на каникулах). Поэтому сегодня пройдусь короткими очередями по видеоделам.
Pika, как и ожидалось, переобулась в платную подписку. Хотите безлимита - это будет стоить 70 баксов в месяц. Иначе это пустая трата кредитов - вы же помните как улетают кретиды в экспериментах?
Но вот их новая фишка с расширением вертикального видео до горизонтального (реально - до любого размера) - это прям огоньогонь.
Для картинок это уже пройденный этап и outpaint и Generative Fill всех разбаловали (хотя отмотайте на 2 года назад и покажите себе Generative Fill в Фотошопе - и вашим мозгам конец).
А вот для видео - это новая фишка, где Пика похоже первая.
Наконец-то монтажеры перестанут убивать с особой жестокостью тех, кто присылает им видосы в вертикальном формате.
https://pika.art/pricing?interval=month
2024-01-24 18:06:38
Я сам пользуюсь https://www.watermarkremover.io/ - он работает лучше.
Там бесплатное сохранение в не очень высоком разрешении.
2024-01-24 17:33:00
Новый видеогенератор от Гугла.
Тут телеграмчик приподвзвывает про новый input-to-video генератор. Под скромным названием Люмьер.
Можете посмотреть на эту прелесть вот тут:
https://lumiere-video.github.io/ (пейпер есть, кода, естественно, нет).
Мои мысли ниже (мы ж тут про авторский канал, а не агрегатор новостей).
1. Генератор не то чтобы новый. Он как бы очень старый.
Напомню, что Гугль одним из первых бахнул text-to-video генератор почти ПОЛТОРА года назад (хорошо иметь свой канал, там все зафиксировано).
https://imagen.research.google/video/
https://t.me/cgevent/4343
Глядя на примеры, я вижу ту же панду, того же мишку, корабли в море, что меня немного смущает. Да их качество стало НЕМНОГО лучше, но говорить о скачке или прорыве не приходится.
2. Image-to-Video выглядит довольно вторично, тут Гугль в роли догоняющего. А в сети уже есть аналогичные "оживлялки". С Моной Лизой совсем кринж.
3. Video Stylization выглядит нарядно. Но камон, помните когда Runway выкатил первый GEN-1 и ролики Карен Чен? Вот это взрывало мозг. Сейчас смотрится опять же вторично.
3. Cinemagraphs. Это как бы image-to-Video в выделенной области. Тут как бы новое название той же фичи.
4. Video Inpainting интересный, но примеры невыносимо синтетические и вакуумно-сферические. В посте такое очень пригодилось бы, но здесь просто демо и продуктовой мыслью тут и не пахнет. Опесорсные решения типа Select/Animate/Anything явно ближе к народу. И тут я жду, что сделает Адобченко, у которого тоже все хорошо с датасетами и ресерчем.
5. Переодевалка на видео выглядит очень круто. Правда с волосами там забавности, он их явно прорежает. Вчера писал про Superlook, там ребята тоже пилят примерку на видео, но на основе опен-сорса. И этот последний блок на сайте с совами и одеждой выглядит наиболее интересно с продуктовой точки зрения. Но где Гугл и где продукт? Пока это демо и папира, которые (возможно) когда-то зайдут в Google Photo и новые версии Pixel.
А теперь поворчу. Вы помните какой был прогресс в 2022 году от кринжовых версий Disco Diffusion до летних сенсаций от Stable Diffusion и Midjourney и DALLE-2?
Прогресс в видеогенераторах медленный. Видео - оно само по себе сложное. Там не просто пиксели бегают по картинке, там шевелятся десятки сущностей: персонажи, фоны, освещение, тени, фокусное расстояние, текстуры и еще много всего. Разметить картинку и разметить видео - немного разные задачи. Описать движение? Попробуйте сами двух словах. Промпты должны быть величиной с дом для попадания в замысел сам себе режиссера.
Поэтому, как я уже давно ворчу, рассказывание историй - за горами. А вот реклама, моушен, клипы, музыкальное видео и любой настроенческий видео-ряд - это прям новая поляна для генеративного видео. Тик-ток ждет этого добра.
И пример с паровозом мне приглянулся своими мамкиными спец-эффектами. На поляне симуляций (вода, огонь, взрывы и вот это вот все) это быстрое пришпандоривание эффектов может очень хорошо зайти в контент для соц-сетей и даже телика и новостей. И тут Адобченко точно может развернуться.
На итоге: я ожидал от Гугла в разы большего. Кто как не Гугл является держателем самого огромного (полуразмеченного) датасета с видео.
Жду ответочки от Адобченко.
https://lumiere-video.github.io/
2024-01-24 17:32:46
Новый видеогенератор от Гугла.
2024-01-24 10:58:10
Это мы с Джамой обсуждаем работу в Виаре над динозаврами...
2024-01-24 10:56:59
Слушать Джаму - это всегда кайф.
Джама выступал у меня бесконечное количество раз. И всегда это был полный зал, шок, что-то запредельно эксклюзивное и потрясающий таджикский юмор.
Джама — непредсказуем, он может появиться VR-шлеме и погрузить всех в виртуальную реальность, создавая в реальном времени 3Д-контент. А может час рассказывать про историю одного концепта, заставляя слушателей непрерывно рыдать и плакать, от смеха и счастья.
Второй день слушаю интервью Джамы у Дудя. Н-Ностальгия.
И хотя, как мне кажется, я уже слышал все истории от Джамы, здесь нашел много нового.
Например про сковородки.
Многим будет интересно послушать (и посмотреть) про виар: Джама - это инопланетянин, который умеет делать концепты в виаре.
Смотреть обязательно.
https://youtu.be/jy4hgSLBvak
Для тех, кто в танке и не знает про Джаму, читаем тут:
https://www.forbes.ru/karera-i-svoy-biznes/383983-kak-dizayner-samouchka-iz-tadzhikistana-stal-sozdatelem-personazhey-dlya
2024-01-24 09:55:07
Еще в декабре Самсунг анонсировал синхронный перевод звонков. Ну то есть вы теперь можете разговаривать с любым носителем одного из 13 поддерживаемых языков. Разговор будет переводиться на лету.
Есть пара моментов, которые обычно остаются за пределами телеграм-новостей.
Перевод осуществляется НА телефоне. То есть LLM-переводчик крутится прямо на устройстве. Это не пересылка в облако и перевод там - иначе было бы медленно.
И тут вопрос, что думает по этому поводу батарея.
Это работает на стороне Samsung S24. Оба перевода, входящий и исходящий. То есть вам могут даже звонить с "городского". Все крутится на стороне S24.
Это LLM и разработка Самсунга. Тут были новости, что Самсунг заколлабился с Гуглом на предмет генерации картинок, суммаризации текстов и пр. Но перевод - это чисто Самсунговская разработка.
Также внутри:
Chat Assist - изменение тональности, перевод или проверка орфографии текстового сообщения перед отправкой.
Функция Circle to Search позволяет запустить поиск Google по любому объекту на фотографии, просто обведя его кружком.
Функция Note Assist для обобщения, перевода и форматирования файлов в приложении Notes от Samsung и создания цифровых обложек для заметок.
Generative Edit, который, как и Magic Editor от Google, позволяет манипулировать и перемещать объекты на фотографиях.
Transcript Assist в приложении Samsung "Записи" для создания транскрипций и краткого изложения разговоров.
Тренда на AI on Edge, то есть когда ИИ крутится прямо на устройстве, а не на сервере, будет приметой 2024. И в этом смысле очень интересно, чем ответит Эппле. И когда.
https://www.cnet.com/tech/mobile/everything-announced-at-samsung-unpacked-s24-phones-galaxy-ai-and-one-surprise-reveal/
2024-01-23 16:02:02
В прошлом 2023 году ИИ-хайп полностью вытеснил из повестки тему метаверсов. В принципе это и неплохо, мутная вода ушла, остались реальные проекты, которые чего-то стоят. Ниша потихоньку формируется и занимает свое место. Но сам термин "метавселенная" до сих пор является неплохим маркетинговых ходом для привлечения молодежной аудитории к бренду.
В канале Filipchik Daily | Metaverse | Tech много об этом рассказывают и знают о чем говорят, потому что сами занимаются их созданием.
#промо
2024-01-23 15:49:04
Перебеседовал с Пашкой. В Superlook.ai куча новых убойных фильтров. Это я в роли античных скульптур и прямиком из Вальхаллы. Сделано из одной единственной фотки моей морды.
Пример идеально упакованного сервиса, который на основе Stable Diffusion, который делает очень много: от полного переодевания (что само по себе топ) до десятков очень фановых фильтров. И там под капотом нехилый такой комбайн из десятков примочек к SD и сурового рисерча.
П-Продукт.
2024-01-23 15:23:22
Orion 14B: Новая базовая (и возможно огненная) LLM-модель от производителя подносов.
Это не шутка, это вполне себе интересная новость начала 2024 года.
Давайте по порядку.
Вышла новая базовая LLM-модель Orion 14B, которая обучена на 2.5Т многоязычном корпусе текстов, включая китайский, английский, японский, корейский и демонстрирует отличную производительность на этих языках. Есть файнтюн для чата, отлично работает при длине токена 200 тыс. и может поддерживать максимум 320 тыс.
Полный фарш из модификаций.
Orion-14B-Base
Orion-14B-Chat
Orion-14B-LongChat
Orion-14B-Chat-RAG
Orion-14B-Chat-Plugin
Orion-14B-Base-Int4
Orion-14B-Chat-Int4
Гики могут воспроследовать сюда, поглядеть спеки, скачать веса и даже есть демо (утром работало очень быстро).
https://huggingface.co/OrionStarAI/Orion-14B-Base
Демо:
https://huggingface.co/spaces/OrionStarAI/Orion-14B-App-Demo-EN
Теперь интересное.
Авторы модели (не файнтюна), а базовой кошерной модели - компания OrionStar. Которые производят роботов. В основном роботы-тележки-с-подносами. Которые бегают на выставках или в бизнесс-центрах и даже в аэропортах. См шапку.
Где они собирали датасеты неводомо из пдфки (ведомо что 90% - это китайский и английский). Но подумайте, производитель робототележек выпускает свою LLM!
Не стартап на сто миллионов, не гугль или микрософт. Просто промышленная компания.
Итого, что мы ожидаем в 2024 году? Полчища опен-сорсных моделей от компаний, у которых просто есть ресурсы. И это могут быть ЛЮБЫЕ крупные(пока) компании. А не только универы со стартапами и фаанги.
Не зря CBInsights пишут, что open source потихоньку сокращает разрыв с closed sourse - разрыв никуда не денется, но будет и дальше сокращаться.
Ну и следующий тренд - LLM-ки для инференска на телефонах.
Собираюсь разобрать 112 страниц этого отчета, но дайте время.
Немного смутило одно. В бенчмарках ни одного сравнения с Мистралем.
Хотите больше инфо, гляньте тут:
https://www.reddit.com/r/LocalLLaMA/comments/19ce7kw/a_new_base_model_orion_14b_trained_on_25t_tokens/
2024-01-22 15:18:17
⚡️ Помогают выставить счет в USD или EUR и получить оплату на карту или счет в России.
Ваш работодатель переводит средства на наш зарубежный счет, а они выплачивают вам рубли в РФ в нужной валюте (На карту, на счет, криптой)
Работают от 1500$
Их услуги подходят, как для частных специалистов - получать постоянную зарплату из-за рубежа, так и для компаний, получать средства за проектную деятельность
Отзывы и подробности в Telegram канале @moneyport
#promo
2024-01-22 15:10:11
ИИ-нирвана.
Пост для взрослых.
Для начала прочитайте вот этот пост:
https://t.me/cgevent/6223 про оргазмы "с умом".
Ну и похоже идея вонзать ИИ в игрушки для взрослых пошла в массы.
На выставке CES 2024 было показано «устройство стимуляции» с искусственным интеллектом для контроля эякуляции.
Если проще - искусcтвенная вагина с искусственным интеллектом.
Все это преподносится в разрезе сексуального здоровья:
Myhixel утверждает, что ее приложение Play включает в себя 8-недельную программу обучения, которая геймифицирует мастурбацию и «клинически доказано» для лечения проблем преждевременной эякуляции.
Я поискал, в каком месте там ИИ, но похоже он спрятался в приложении. Сама игрушка на рынке уже много лет, но ИИ хайп докатился и до нее.
А я вот подумал, что это шанс для Apple Vision Pro найти, наконец, свою нишу.
С одной стороны, если вы пробовали смотреть VR-порно (лучше в 4К), то это реально, скажем так впечатляет.
С другой стороны, снимание информации с башки зрителя и может, наконец, дать необходимые данные для нейробиологической обратной связи и превратить такую связку и маркетинг-буллшита в ИИ-нирвану.
Крутизна лыжной масочки от Эппле в том, что они умеют снимать реально много данных с башки кожаного, и все эти ЭЭГ из вот этого поста будут уже не нужны.
https://myhixel.com/products/myhixel-control
https://www.youtube.com/watch?v=6Irhyg3oE5M
2024-01-22 14:37:59
Кому ИИ-генерации в векторы?
Я уже писал про Recraft 9 месяцев назад, там тогда не работала генерация в вектор и все было довольно сыро.
https://t.me/cgevent/5547
Но за это время проект нехило так развился.
400 000 пользователей, 50 миллионов генераций (хотя эти цифры тоже можно генерировать))
Там заработал экспорт в SVG, я проверил. В шапке SVG.
Предлагаю в коментах обсудить качество вектора.
Но мое внимание привлекла вот такая деталь.
Авторы хотят обучить свою модель для генерации картинок. Типа замену Stable Diffusion.
И судя по тому, что они поднимают 12 миллионов, у них, возможно, получится.
Уже ведется работа над базовой моделью: «Она будет намного больше по размеру и будет иметь другую архитектуру, которая обеспечит лучшую анатомию, качество детализации и более сложные текстовые описания»
Амбициозно.
Они целят в жирную нишу для создания и редактирования векторной графики, иконок, 3D(!?) и вообще в рекламу и брендбуки.
Стартап из Лондона, но там выходцы из Яндекса, которые запилили библиотеку CatBoost - open source library for gradient boosting on decision trees. Так что их амбиции вполне себе адекватные.
https://www.recraft.ai/
2024-01-22 14:09:32
Для тех, кто в танке, у CodeMiko есть youtube канал, где она вытворяет всякие безобразия с Unreal Engine, захватом лица, рук и всего тела.
Не забудьте заглянуть в шортс, там очень много добра. Про AI Hands смешно.
https://www.youtube.com/@CodeMiko/featured
И поглядите на реалтаймовую одежду и волосы - как вам?
От себя замечу, что сетап этого хозяйства - это вам не картинки в Автоматике или видео в Пикалабсе генерить. Нужен мозг и некривые руки.
Кого интересует раскрытие темы сисек, я уже писал как Code Miko ее закрывает: https://t.me/cgevent/4547
2024-01-22 14:02:57
Пока мы прокачиваем нейроаватаров, олдскульное 3Д тоже не дремлет.
Поглядите, что вытворяет CodeMiko.
Захват лица БЕЗ всяких датчиков и маркеров и шлемов - просто AI face mocap
Все это -реалтайм.
Ждем подробностей на youtube, а пока смотрим на твиче.
https://clips.twitch.tv/CuriousAmazonianWolverineWoofer-h8SQeAfJ16B-w9Ta
2024-01-21 16:37:39
Nvidia выкатила ChatQA - продавцы лопат наконец-то вышли из тени.
Это целое семейство LLM, от 7В до 70В параметров, специально заточенных по чаты (вопрос-ответ).
Конечно, по утверждениям Nvidia они наступают на пятки GPT-4:
"Примечательно, что наш ChatQA-70B может превзойти GPT-4 по среднему баллу на 10 наборах данных разговорного QA (54,14 против 53,90), не опираясь на синтетические данные моделей GPT от OpenAI."
Пока можно сказать одно, с железом для тренировки моделей у них проблем нет.
Много интересного прямо во введении в статью - в основе лежит клан Лламы:
We build a family of ChatQA models based on Llama2-7B, Llama2-13B, Llama2-70B and a in-house 8B pretrained GPT.
10 датасетов, включая 5 наборов данных с длинными документами, которые требуют поиска(retrieval), и 3 набора данных с таблицами.
Тут вот с интернетиках пишут, что модель умеет отвечать на вопросы, которые не имеют ответов.
Это не так, она просто умеет отвечать "я не знаю ответ", вместо того, чтобы галлюционировать.
"Добавление небольшого количества «unanswerable» образцов при настройке инструкций может
управлять моделью для генерации ответа «не могу ответить» когда это необходимо, таким образом в значительной степени уменьшает галлюцинации.
Кода, как обычно у Нвидии нет, одна бумага.
Осталась одна Эппле с неотвеченными вопросами о том, доколе они будут тормозить со своей LLM..
https://analyticsindiamag.com/nvidia-introduces-chatqa-gpt-4-level-conversational-qa-models/
https://www.reddit.com/r/LocalLLaMA/comments/19as4lf/nvidias_new_paper_introduces_chatqa_model_that_is/
2024-01-20 14:13:23
Kandinsky отчитался об успехах.
По данным разработчиков, было создано более 200 млн генераций по текстовым запросам, а аудитория превысила 12 млн уникальных пользователей. Модель заняла первое место по темпу роста и стала второй после Stable Diffusion по популярности среди разработчиков по версии Hugging Face, где собраны лучшие open source-решения. Сам часто пользуюсь ботами Кандинского, когда делаю интерактив на лекциях. Кидаю куар код в зал - народ начинает неистово генерить креатив, а я вывожу ленту с креативами на экран. Работает убойно, забирайте трюк. Плюс в том, что боты Кандинского работают реально быстро и не требуют регистрации. В отличие от тысяч попрошаек "щас Midjourney и DALL·E 3 за 100 рублей". Скорость помогает дать пользователям понимание того, что вообще происходит. На сайтах fusionbrain.ai, rudalle.ru работает еще быстрее. Модель также работает в сервисе GigaChat, доступна в мобильных приложении Салют, а также на умных устройствах под управлением Салют ТВ по голосовой команде «Запусти художника».
Технически Kandinsky понимает запросы на более чем на 100 языках, генерация реально безлимитная и бесплатная, хорошо умеет в стилизацию. Модель также умеет менять отдельные объекты или области на картинке, смешивать несколько рисунков, inpainting/outpainting, бесконечный зуминг, все как у людей.
Интересно, что в культурные коды тоже исполняет хорошо, знает много народного фольклора и мемов, но заставить его сгенерить цветок с семью лепестками у меня не получилось. Помните челлендж про цветик-семицветик и DALL·E 3? Видать это архетип вселенского уровня.
В общем я регулярно пользуюсь в образовательных целях из-за скорости и бесплатности.
2024-01-20 14:11:19
Для тех, кто в хардкорной графике. ИИ-ротоскоп и композ.
Пост для гиков.
Мой хороший друг и легенда в мире композа Витя Перец запостил у себя новость о том, что у Фаундри (которая написала Nuke) есть A.I. Research Team и они ищут QA-инженера с опытом ротоскопа.
"Лучшая софтверная компания в мире ищет инженеров с опытом работы в AI... все мировое сообщество Nuke будет любить вас вечно, а ваше имя будет вытатуировано в сердце каждого композитора, если вы решите проблему автоматического рото с помощью AI... пиво за мой счет!"
Народ в коментах трактовал это как Фаундри ищет ML-инженера и там разгорелись битвы по поводу ИИ-ротоскопинга. Хотя в описании вакансии типичный QA-тестировщик. Есть лишь пожелание "Experience and knowledge of machine learning and A.I."
То, что Foundry пилят ML-ноды уже давно не секрет. Вопрос в темпах и в том, почему они до сих пор не прикрутили богатое наследие Stable Diffusion в Mari, и весь этот open source tracking в Nuke. Вариантов применения - тонны. Но как и все софтверные гиганты, Фаундри поднимает веки очень медленно.
И как обычное самое сладкое нашлось в коментах.
Rotofury - это набор скриптов для Нюка, которые имплементируют опен-сорсный CoTracker от Метачки - быстрая модель на основе трансформеров, которая может трекать любую точку на видео.
Про Cotracker можете почитать тут, выглядит убойно. И классно то, что народ уже прикручивает это в профессиональные софты типа Нюка в виде Rotofury, чтобы это не оставалось демками на Хаггинг Фейсе.
Там же в коментах обнаружился Omnimotion:
Имплементация работы Tracking Everything Everywhere All at Once
Ну и грех не упомянуть, что Влад Ахтырский пилит свой Мега-ИИ-Комбайн для Нюка, где есть все на свете, от рото и кея, до автоматической генерации проектов в Нюке:
https://youtu.be/lrYVCpqn8FE?si=wbLgZ7wQEGMwQEvV
Это, пожалуй, самый интересный проект по применению ИИ в композе.
p.s. На сладкое одна история с Витей Перецом. Он был одним из ключевых спикеров на одном из моих cg event-ов.
Сидит, Витя, как обычно, со своим 8-килограмовым ноутом, ядерной видеокартой и атомным процессором готовится, колдует в Нюке. Потом закрывает его, и ждет времени начала выступления. Сетапимся, подключаемся, Витя открывает ноут, но тут винда решает, что уже ночь на дворе и пора поставить обновления. И ставит. На большом экране. 5 минут, 10 минут, 15 минут. Я рассказал все свои шутки за 10 лет, задал все вопросы Вите, спросил все что мог у зала. Через полчаса винда обновилась. С тех пор я могу тянуть время на выступлениях вечно, говорить о чем угодно, и писать любое количество постов в день. Не позволяйте винде ставить обновы автоматически!
2024-01-20 13:09:31
Нейросимволическая архитектура и ускорение обучения в 700 раз.
Пока весь мир сходит с ума на архитектуре Transformer, есть холодные умы, которые пытаются радикально снизить издержки на обучение в сотни раз, без специальных TPU, при этом понимать о том, почему и как черный ящик принимает решения.
Вадик Асадов прислал интереснейший проект с архетипичным названием Aдам и Ева
Это новая архитектура, которая в 700+ раз быстрее стандартных трансформеров. Коллеги научились делать N вместо N^2 по размеру данным и могут крутить все это хозяйство даже на CPU.
Отсюда два следствия.
Первое, нынешнее обучение LLM дико дорого: стоимость увеличивается квадратично с размером набора данных. Стоимость обучения за последние десять лет увеличилась в миллион раз. Даже OpenAI и другие уже сталкиваются с нехваткой оборудования ИИ. Чтобы полностью реализовать потенциал распространения ИИ, необходимо изучить альтернативные архитектуры ИИ, которые требуют значительно меньшей вычислительной мощности.
Другое законное желание - уметь понимать решения, принимаемые ИИ. Нейронные сети с их распределенным мышлением не интерпретируемые. Непонятно, почему они дают определенные ответы и как на их поведение можно влиять без переобучения всей модели.
Далее дам выжимку из описания, а почитать подробнее и записаться в вейт-лист, можете тут.
Я заинтригован.
https://adam-eva.ai/technology.html
Наши алгоритмы нейросимволического обучения основаны на принципе минимальной длины описания. Этот принцип гласит, что способность модели к точному прогнозированию возрастает с увеличением эффективности сжатия данных.
Мы используем стратегию глубокого сжатия данных, которая выполняется постепенно на нескольких слоях. Каждый слой сжимает данные в более широком временном масштабе, чем его предшественник, что отражает scale-free природу данных, наблюдаемую в естественных языках. Это сходство позволяет предположить, что наша архитектура может быть особенно эффективной для приложений ИИ на основе языка, используя структуру данных, схожую с человеческой лингвистической обработкой.
В нашей архитектуре каждый уровень независимо разрабатывает свой собственный формальный язык, выявляя повторяющиеся шаблоны в потоке входящих символов и эффективно сжимая их в более плотную последовательность часто встречающихся комбинаций, или "слов". Таким образом реализуется сжатие данных внутри слоев без потерь.
Между слоями мы применяем сжатие семантических данных с потерями, чтобы присвоить словам осмысленные интерпретации. Семантический контекст каждого слова отражается в векторах вероятности его соседей. Кластеризуя эти семантические векторы, мы определяем алфавит для последующего слоя, позволяя представить каждое слово как символ, кодирующий информацию в более длительном временном масштабе.
Каждый слой нашей модели состоит из нескольких heads, каждая из которых выступает в роли эксперта по кодированию слов из предыдущего слоя на основе определенной кластеризации. Такая multi-head система позволяет разнообразно интерпретировать данные, подобно multi-head вниманию в "Трансформерах".
Обучение модели представляет собой иерархический процесс. Она изучает ряд формальных языков, в которых слова низкого уровня абстрагируются в символы более высокого уровня. Понимание входного потока возникает в результате анализа снизу вверх всеми слоями, а формирование ответа - это процесс сверху вниз, когда каждый слой вносит свой вклад в реализацию общей стратегии.
2024-01-19 18:43:52
Ну ладно прическа портится, тут мы потеряем только длинноволосых.
Но как быть с ушами, Карл?
Все готовы быть эльфами и хобитами?
Кстати, Netflix канселит Vision Pro и не планирует выпускать приложение для visionOS, а также не позволит запустить свое приложение для iPad на масочке. Вместо этого компания предложит пользователям смотреть Netflix через веб-браузер. https://bloomberg.com/news/articles/2024-01-17/watching-netflix-on-apple-vision-pro-you-ll-have-to-use-the-web
Так что с просмотром кино пока не очень.
2024-01-19 18:13:47
Держите прям совсем свежий ролик от Эппле про Vision Pro. Только что залили.
Я внимательно посмотрел, но так и не понял - а что там делать-то?!
Во всех обзорах пишут: там фото и видео смотреть очень круто.
Ок, а что там делать, кроме как смотреть фото и видео?
Единственное, что привлекло мое внимание, это приложение Mindfulness, но его как-то быстро замяли.
Что нового придумают разработчики приложений для Vision Pro, помимо того, что уже было написано для Квеста и других шлемаков?
Ибо кроме игр, ничего массового не наблюдалось на этой поляне.
Нишевого-полезного много, массового, кроме игр и просмотра кино - ничего.
Вы станете покупать лыжную маску на $3500 для просмотра видосов?
https://www.youtube.com/watch?v=Vb0dG-2huJE
P.S. Я вижу одну очень интересную нишу. Благодаря тому, что масочка умеет собирать много данных с глазок и вообще головы кожаного, приложения, связанные со здоровьем и вообще нейрофидбеком могут быть очень интересными. Это как apple watch размером с голову. Но есть ли тут массовый рынок и насколько он этичный, скажем так?
2024-01-19 17:48:13
Ну за 3Д-моделлеров и 3Д-стоки.
Про китайцев из DeemosTech я уже писал в своем посте про Чатаватаров.
Это бывшая лаборатория в Шанхайском университете.
Я не знаю, сколько у них там RnD отделов, но они собирают довольно годные демки по разным вариантам применения ИИ в 3Д. Их Том Круз был довольно узнаваем.
А сейчас они собрали прям очень сладкий пайплайн из Блендора и text-to-3D генераций.
В Блендоре вы расставляете кубики и пишете для них промпты, а ИИ генерит 3Д-модельки на месте этих кубиков. Тут нет магии, просто удобство, делаете композицию на баундинг-боксах, а потом "нейрорендерите" это в 3Д, с последующим "настоящим" рендером (там даже PBR-материалы обещаны).
Фишка тут в том, что их модель Rodin Gen-1 (1,5 миллиарда параметров, если что), является самой большой из доступных нативных 3D-моделей и учитывает входящие размеры объектов.
Пример того, как можно из опен сорса и палок собирать ловкие прототипы будущих инструментов.
Просто представьте, вот есть у вас сцена, выделяете любой объект и кричите в монитор, "теперь это не тупая машинка, а винтажный опель 1947 года, цвет баклажан, тонированные стекла".
Хихикаете?
А ведь скоро можно будет "наговорить сцену".
Поройтесь у них в твитторе, там довольно много свежака про Чатаватары и другие проекты.
https://twitter.com/DeemosTech
Полезная статья про ХиперХьюманов:
https://deemostech.medium.com/hyperhuman-explained-81ec12cbe86c
P.S. Для тех, кто давно читает мои посты про 3Д, есть одна маленькая деталь: all of the assets Rodin generates "should be retopologized".
Чуда нет, тут генерация картинок по промптам с разных ракурсов, а потом генерация облаков точек на основе этих картинок.
Кстати, Rodin - это Родэн, тот который скульптор.
2024-01-19 16:34:54
Вы думаете, "да кто это будет смотреть ваще?". Держите немного веры в человечество и любопытных деталей.
С момента своего дебюта на сайте в июне 2023 года Лекси установила «сильную эмоциональную связь» со многими своими платными подписчиками.
Некоторые подписчики даже убеждены, что Лекси — реальный человек: искусственный интеллект Foxy делает до 20 предложений руки и сердца в месяц.
Lexi не только предлагает платные текстовые и голосовые сообщения, но и может отправлять «непристойные фотографии» по запросу.
Популярность Love растет с каждым месяцем: Foxy AI утверждает, что скоро они будут зарабатывать более 30 000 долларов (24 000 фунтов стерлингов) в месяц на ИИ тварюге.
Хотите поразглядывать, идите сюда:
https://nypost.com/2024/01/18/lifestyle/model-lexi-love-makes-360k-a-year-sexting-men-but-theres-one-problem/
Хотите больше таких ИИ-тварей, шуруйте сюда:
https://foxy.ai/explore
И загляните в креативный отдел:
https://foxy.ai/creators
2024-01-19 16:34:46
Зайдем с козырей. ИИ-секстинг.
Тут вначале года все склоняли цифровую тварь Emily Pellegrini, которая типа "сгенерирована ИИ" и взрывает инсту.
Ну как взрывает, 90 постов, 261К подписчиков, нагон трафика на лицо (с пробелом).
Про "сгенерирована ИИ" - тут ситуация банальная, один смышленый чувак просто тырит чужие фотки в интернете и пришпандоривает к ним одно и то же лицо (живое или синтетическое, без разницы). Про один из пришпандоривателей лица я уже писал.
Так что в следующий раз, когда вы читаете про "сгенерирована ИИ", особенно, когда речь идет про видео(как в шапке), имейте в виду, что это банальный однокнопочный дипфейк на службе интернет монетизации.
Ну мы с вами поговорим про более взрослые случаи.
Модель Lexi Love (тут кстати действительно полная генерация в Stable Diffusion) нормально так поднимает денег, причем не на какой-то нищебродской рекламе, а с помощью жесткого секстинга (это когда мужуки хотят поговорить про это с кем-то в интернете и выпрашивают фотки разных частей тела).
Лекси делает то, чего не могут делать кожаные модели: она говорит на более чем 30 языках и может общаться с подписчиками 24 часа в сутки.
Пять бесплатных сообщений, а потом иди вонзать деньги. Цены довольно жоские.
Самое интересное, в разделе "для креаторов" - вы можете сделать себе свою ИИ-модель.
ОнлиФанс сейчас реально поперхнулся - представьте себе полчища таких полиглотов, работающих по 24 часа в сутки за электричество.
По техническим особенностям - никого не трясет, что с пальцами на фотках беда, кому нужны фотки пальцев, когда основа бренда такая грудь. Генерации на уровне Stable Diffusion 1.5.
А вот с чат-ботом непонятно, реакции модели невнятные, похоже больше на скрипты, чем на LLM. Но дайте время..
Я бы начал выпивать за моделей с ОнлиФанс, но предвижу "гибридные" варианты - живая модель работает (и скорее всего только телом) и голосом в "первую смену", а все остальное время ИИ коммуницирует с алчущими прелестей общения кожаными. Причем подбор лиц идет строго таргетированный.
Продолжим в следующем посте...
2024-01-19 14:00:54
ИИ с Метаверсом наперевес возвращается!
Каникулы явно удались, три недели пляжного волейбола на песке приводят к тому, что у тебя болит каждая клетка кожаного тела и любое движение причиняет невыносимую боль. Это заставляет почувствовать себя живым и поразмышлять о том, что всех этих "мыслителей" и блоггеров типа меня, ИИ скоро заменит, а вот хорошо координированные резкие движения в сложной погодной обстановке с учетом психологии кожаных участников роботам дадутся еще не скоро. Пока играл, также думал о том, что кожаные с маниакальным упорством делают антропоморфных прямоходящих роботов, которые с точки зрения биомеханики явно неоптимальны. Но у кожаных один кумир - они сами, вот и меряемся сами с собой, хотя стоит подумать о других формах. Не только анатомических, но и ментальных.
Есть еще один плюс в цифровом детоксе. Когда перестаешь потреблять столько информации, начинаешь ее синтезировать - иначе говоря, думать, запускать процесс вспять. И глядя на скорострельные телеграмчики и твитторы, которые строчат короткими очередями типа "ойсмаритечоещё" без всякой попытки вникания, анализа, осмысления и не приведихосподь тестов, понимаешь, что, возможно, кожаные размышления на тему происходящего, взгляд сверху
Что в планах?
Разбор новостей и тестирование годных штук, а не поток двухабзацных анонсиков.
Довольно злобный лонгрид про GPT Store (похоже критическое мышление становится атавизмом, что мы уже прошли с Метаверсиком).
ИИ-волосы, продолжение 3D AI ресерча, вИИзуальный контент.
ИИнди-поспродакшен
Глубокий запой с поминальными постами - пока вы молчали, ИИ пришел за многими из вас.
Умноглупые мысли про AGI - похоже я один отказываюсь оперировать терминами без определения и сыпать прогнозами про то, чего нельзя описать словами. Впрочем, мы уже потренировались на Метаверсике рассуждать о том, чего нет.
Троллинг Эппле
ИИ-одежда, ИИ-музика, ИИ-литература.
Ну и, конечно, все эти виртуальные инфлюенсеры, генеративные модели, суррогатные аватары, ИИ-порно, цифровые нелюди и прочие твари, лезущие к нам из видеокарт.
Годик будет развеселый. И пока реальный мир окончательно сходит с ума (в Дахаб, например, приплыли акулы и серферов повыгоняли с воды), мир виртуальный стремительно этого ума набирается, благо есть на чем учиться. На кожаных ошибках в первую очередь. Об этом тоже поговорим.
Поехали!
2024-01-10 17:38:35
Судя по твитторам, открылся GPTStore.
Должна появиться новая вкладка слева в веб интерфейсе chatGPT.
У меня пока пусто, более того, вкладка Explore GPTs перестала работать.
Про модерацию пока известно вот такое:
Чтобы разместить GPT в GPT Store, разработчики должны подтвердить свои профили пользователей и отправить свои GPT в новую систему проверки OpenAI, которая включает в себя как кожаную, так и автоматическую проверку, чтобы гарантировать соответствие GPT условиям использования компании.
Про деньги:
При запуске разработчики не смогут взимать плату за свои GPT. Но OpenAI планирует запустить «программу дохода для разработчиков GPT» где-то в первом квартале, при этом разработчики (пока US only) будут получать доход, основанный на «взаимодействии пользователей»(??) с их GPT. OpenAI сообщает, что предоставит подробную информацию о критериях выплат в будущем.
Пока всё довольно туманно, вопросы с модерацией и ценовой политикой не раскрыты.
2024-01-04 20:38:43
На следующей неделе запускается GPT Store!
Пришло письмо. "В начале года" у OpenAI -это реально в начале года.
2023-12-31 12:15:02
Как встретишь новый год, так его и проведешь.
Ну и добавлю немного воздуха в канал.
Есть такое место на Земле - Дахаб. Это на Синае, где Моисей шастал по пустыне.
Там время остановилось. Туда можно приехать в любое время года, через год, два, три десять. И увидеть абсолютно ту же безмятежную вековую картинку - море, горы, ветер, пустыня. Я когда-то провел там десять волшебных лет и стараюсь приезжать туда как можно чаще. Чтобы почувствовать себя живым. Чтобы лечь на песок и затормозиться. Чтобы биться спиной об воду, падая с доски. Чтобы гонять в пляжный волейбол до изнеможения.
Ну и кстати, я довольно равнодушен к теме роботов. Есть такой принцип Моравеца - очень упрощенно говоря, научить ИИ соображать гораздо проще и менее энергозатратно, нежели научить его двигаться как человек.
Прокачивайте свои сильные стороны - вы можете через сложные координационные нагрузки прокачивать свои мозги и тело. В этом ваше преимущество. Как это не банально звучит - занимайтесь спортом и вы не только продлите свою жизнь, но еще и получите преимущества перед ИИ (ну или в глазах ИИ).
Я снова в Дахабе, до нового года 10 часов и они прекрасны. Плюс 28 на дворе, вода плюс 24, ветра нет, я иду катать пляжный волейбол и думать о судьбах ИИ. Завтра ветерок, может катнем.
Как встретишь новый год, так его и проведешь.
Всех с наступающим!
2023-12-31 11:51:40
Как встретишь новый год, так его и проведешь.
Я вот сижу подбиваю итоги ИИ года, читаю новости и думаю мысли в голове. Надеюсь, что буду заниматься этим и в следующем году и наваливать в канал еще больше авторского контента.
Технологически год был просто нереальный - за последние 40 лет я не помню ничего подобного (кроме взлета и краха доткомов), что настолько бы перетряхнуло наше кожаное мышление. У меня нет никаких прогнозов на следующий год - скорость изменений настолько чудовищна, что любые прогнозы превращаются в пессимистическое брюзжание после очередного апдейта от OpenAI или RunwayML. Я могу только предположить, что в следующем году мы начнем ОТНОСИТЬСЯ к ИИ по-другому. Иначе. Я-то уже давно перешел на ИИную сторону и вам желаю перетряхнуть мозги и перестать внедрять ИИ в бизнес, личную жизнь и куда там еще норовят его присунуть инфоцыгане. И начать сотрудничать с ним, нанимать его, приглашать его в свою жизнь. ИИ - тоже человек, просто другой. Об этом и начну писать в новом году.
Держите пока картиночку, чтобы освежить в памяти этот безумный год. ВСЕ ЭТО произошло за последние 9 месяцев! Ребенок доношен, упитан и готов к жизни среди людей.
P.S. Многое отсутствует на картинке, я бы от себя добавил такие открытия как Control Net и Suno.ai.
Всех с наступающим!
2023-12-31 11:27:53
Держите смешной, но весьма полезный подарок на новый год.
Тренажер промтинга для генерации картинок.
Очень удачная игровая механика от Гугла - вам показывают картинку, вы включаете внутренний интеррогатор и описываете ее словами. Дальше ИИ сравнивает ваши вирши со своим вариантом и сообщает на сколько процентов вы попали в промпт, описывающий такую картинку.
Таким образом вы тренируете свою кожаную нейросеточку делать годные промпты и попадать в нужную картинку.
Плюс в том, что по вашему промпту генерится картинка и вы можете сравнить оригинал и ваш генератив. Для обучения - очень полезно.
Я, конечно, отчаянно считерил, просто закидывал копии картинок слева в chatGPT и просил его описать (кратко) это безобразие. Сходу прошел довольно глубоко.
Приятного вам новогоднего залипания и пишите в коменты ваши успехи.
https://artsandculture.google.com/experiment/say-what-you-see/jwG3m7wQShZngw
С египетского айпи открывается без проблем.