Метаверсище и ИИще страница 1. Показано 50 статей из 557
2024-04-22 14:20:53
Ну, за кинокритиков.
Недавно писал про запуск Нейро от Яндекса. Также писал про эксперименты Кинопоиска с нейросетками.
А теперь они взяли и скрестили ужа с ежом.
Точнее взяли Нейро и кожаного кинокритика (Даулет Жанайдаров) и задали им одинаковые вопросы:
почему Нолан гений, как Симпсоны предсказывают будущее, худший ли фильм “Комната”, почему Финчер главный режиссер по маньякам, почему Ди Каприо долго не давали Оскар, чем крут Шрэк.
Почитайте тут.
На мой взгляд Нейро зачастую более "конкретен". Не разливается в прилагательных, а довольно четко поясняет за свою позицию.
Кожаный же критик часто углубляется в отступления и виляет в круговороте "с одной стороны, но с другой стороны".
Ну или просто уходит от ответа "все относительно, особенно оценки произведений искусства!", в то время как ИИ нетолерантно пишет, что "«Комната» 2003 года - говно".
Наверное читать кожаного критика интереснее (у меня просто чувство языка отзывается на порядок слов). Там много интересных фактов, иногда не относящихся к делу.
Но если бы я делал просто кино-ресерч, то не факт, что тексты кожаного критика понравились мне больше. Ну и как показывает позиционирование Нейро - он именно для ресерча. Плюс он не такой многословный.
Мне стало интересно спросить его: Почему Игра Престолов лучший сериал всех времен и народов? (Ответ в коментах)
Почитайте дуэль вот тут, занятно:
https://www.kinopoisk.ru/media/article/4009335/
2024-04-22 14:17:49
Ну за актеров!
Как в воду глядел.
Помните, тут недавно актеры и сценаристы бастовали против ИИ?
Актеры, в частности, очень озабочены тем, что их внешность может быть отсканирована в 3Д и потом использована без их гениального участия.
Я тогда писал:
Все снова поделится на два лагеря.
Будут актеры (в основном с хорошим портфолио и гонорарами), которые будут сниматься на камеру "по старинке", а за каждый цифровой чих вписывать пару нулей в договор. И будут актеры, которые будут готовы сниматься "для синтеза", то есть цифровать свой стиль, внешность, мимику и пр. для любых последующих манипуляций. Для них это самый доступный пусть Голливуд. А там, может быть повезет, и удастся перебраться в первую категорию.
Новость:
Ведущее голливудское агентство по поиску талантов CAA, как сообщается, тестирует инициативу под названием CAA Vault, позволяющую клиентам из числа знаменитостей создавать искусственные клоны самих себя, чтобы открыть новые творческие возможности.
CAA сотрудничает с компаниями, занимающимися ИИ, чтобы сканировать тела, лица и голоса клиентов, создавая их копии для таких целей, как пересъемка, дубляж и наложение дублей каскадеров.
Цель CAA - в конечном итоге сделать эту технологию доступной для всей индустрии, а не только для своих клиентов.
Тут недавно голливудский магнат Тайлер Перри остановил крупное расширение своей студии после того, как увидел Sora от OpenAI, предсказав масштабное сокращение рабочих мест в индустрии развлечений из-за прогресса ИИ. Что-то почувствовал.
Итого, что мы имеем?
В то время как индустрия борется с последствиями внедрения искусственного интеллекта, CAA принимает упреждающие меры, чтобы помочь клиентам извлечь выгоду из этого изменения. Кто из вас отличит настоящего Тома Круиза от его двойника в кино?
А двойник обойдется в разы дешевле.
https://www.theinformation.com/articles/hollywood-talent-agency-caa-tests-ai-clones
2024-04-22 11:00:11
Продолжаем тему оцифровки мира, скинов для него и гауссианов.
С одной стороны мы можем теперь стримить наш мир через мозги одних нейросеток (Stable Diffusion).
С другой стороны, мы можем пропускать его через мозги других нейросеток (Luma AI), которые восстановят 3Д и покажут наш мир с любого ракурса.
Ну а потом мы может опять позвать первые нейросетки и постримить эти новые ракурсы с новыми скинами (но это я увлекся, пардон).
Смотрите, уже можно оттрехмерить не только видео с дронов и телефонов, можно присунуть им на вход любимые фильмы!
И получить миры этих фильмов, где можно гулять в любом направлении. Вот он намек на развлекательный метаверс!
Ниже ссылки на сцены из культовых фильмов, которые скормили в Luma AI и получили Gaussian Splatting трехмерное представление этих сцен.
По ссылкам можно покрутить эти сцены.
Gaussian Splatting - это аналог микрополигонов, для тех, кто знает, что такое Рендерман.
Источник и полный фарш вот тут.
Погуляйте по ссылкам, покрутите сцены. Реверс инжиниринг в действии.
LOTR: https://lumalabs.ai/capture/176ED9AA-514F-4A45-9343-D4C708C86570
Matrix: https://lumalabs.ai/capture/F358C359-42BE-44B6-BA81-D58C7F75E19D
Citizen Kane: https://lumalabs.ai/capture/4ED192E4-44C9-4550-BC80-2CB130753F5D
Wizard of Oz: https://lumalabs.ai/capture/3D8B463B-62FF-43AF-AD42-B1E47C1213D5
Terminator 2: https://lumalabs.ai/capture/220C2F41-E512-455C-B3EE-47CDD4398743
It's a Wonderful Life: https://lumalabs.ai/capture/F843DABF-89DC-4673-B04A-2EFC2AA04F29
High Noon: https://lumalabs.ai/capture/ED3780E3-822F-4FF5-8CA4-AD99060CCC17
Peewee's Playhouse: https://lumalabs.ai/capture/8863F7C6-6E0D-457A-99A8-2AD30BDC242A
Statue of Liberty, 1929, footage from a Graf Zeppelin: https://lumalabs.ai/capture/24BB48C2-CFC1-4554-B857-F4256413F82B
New York, 1929, footage from a Graf Zeppelin: https://lumalabs.ai/capture/B7E93490-2773-451A-9FFF-7214CFC2A711
New York Skyline from a boat, 1930s, colorized: https://lumalabs.ai/capture/9F704C61-4D60-46BE-A49F-4231EFA167D8
2024-04-22 10:27:17
А метаверсик к нам идет через генерацию миров (или бесконечных скинов для нашего мира) с помощью нейросеток.
Я уже давал примеры стриминга с веб-камеры в Stable Diffusion.
Держите еще один. Еще более близкий к реальности. Здесь это уже крутится на телевизоре и Stable Diffusion взаимодействует с живыми людьми, а не с гиками.
Кому интересно, это все крутится на домашнем компе с 3090 с помощью SD Turbo with LCM LoRa, 2 Steps and CFG 1.6, denoise 0.5 и вот этой приблуды: https://github.com/toyxyz/ComfyUI_toyxyz_test_nodes
Когда в очередной раз будете смотреть телевизор, спросите себя, это точно не нейросеть?
2024-04-22 10:15:45
Я опросил некоторое количество новоиспеченных владельцев Apple Vision Pro. 99, если не 100 процентов ответов приводятся вот к такому общему знаменателю: "Он классный, но пустой".
Даже неистовые фанаты говорят: "кроме как смотреть кино там делать нечего". И с надеждой добавляют "пока".
Вы помните, как Эппле долго тормозила с выходом лыжной маски? Люди уже ставки начали делать, когда счет пошел на годы.
Все просто - не было киллер-фичи. Не было вот этого убийственного повода взгромоздить полкило железа себе на голову и залипнуть там надолго.
И, честно сказать, я был сильно удивлен, что Эппле все-таки выпустили маску без киллер-фичи.
И все такие "ну щас девелоперы подтянутся и напилят приложений".
Да, но нет. Девелоперы - это девелоперы, а киллер-фичу (и экосистему вокруг нее) никто за Эппле не придумает. И не придумал.
Смотрите, никто не придумал, что делать в метаверсе, кроме как играть. Но даже такой экспириенс как виар-гейминг, не заставил юзеров хоть как-то выйти за рамки 2.5% фриков в шлемах. Ну не хотят кожаные надевать железяки на голову.
В руки брать готовы, на запястье вешать тоже. Но на голову - нет.
Физиология. Безопасность. Выживание.
И я не знаю, какой может быть киллер-фича, которая сделает вот этот вот красиво придуманный spatial computing массовым. Не продуктов в нишах, а массовым явлением.
А пока без киллер-фичи Vision Pro по-прежнему пустой. И похоже покрывается пылью на полках.
2024-04-20 10:58:40
Не можешь пофиксить победить - возглавь!
2024-04-19 08:53:27
Если устали от шквала метрик и хотите сами оценить интеллектуальные способности свежеиспеченной LLAMA 3, а заодно проверить все модели от LLAMA 2 70B до LLAMA 3 70B, можете воспроследовать вот сюда:
https://llama3.replicate.dev/
Работает архибыстро.
2024-04-19 08:41:19
Мне вот не дает покоя демо Адобченко, где он показал, что будет\может использовать внешние видеогенераторы как источники видео.
Тут им придется переобуться, ибо до сих пор они декларировали, что все, что отрыгнет их ИИ - это юридически чистый контент и они даже впишутся за своих авторов-подписчиков если что.
В данном случае эта модель перестанет работать, но я не о том сейчас.
А что мешает Адобченко также вструмить Suno и Udio как аудио-генераторы?
А потом GPT-4, Клода или локальный Мистраль как текстовые генераторы (для титров) или генераторы титров по картинке?
А потом DALL·E 3 как генератор картинок (SORA можно, а DALL·E 3 нельзя?!?!). Вон там инпайнтинг завезли, идеально ляжет на фотошопные кисти.
У Адобченко есть инструменты работы со звуком и видео и картинками. С огромной экосистемой. Туторами, коммюнити, культурой.
Всем контент генераторам не хватает нормальных инструментов редактирования. По времени (таймлайн) и по пространству(панель инструментов фотошопа).
Если Адобченко так лихо показал пристегивание внешних генераторов, что мешает ему быть Хабом для генераторов всея ИИ?
Понятно, что у Midjourney нет АПИ. Но это вопрос либо денег и переговоров, либо альтернатив.
В общем у меня теперь не сшивается реальность после их демо Premiere.
Еще раз - SORA можно, а DALL·E 3 нельзя? Вон у них в демо SORA и Firefly сосуществуют мирно, так что вопрос не в эксклюзиве для Firefly.
Что думаете?
2024-04-19 08:26:55
Вынесу из коментариев такой пример генерации от подписчика Mike:
"The Truth" - песня о поиске истины.
"Постарался вытянуть из Suno максимум (сначала мучил Udio, но результат был хуже).
Потратил около 5 часов, 90+ генераций, нарезка, чистка, маскировка артефактов звуковыми эффектами. И монтаж в Blender (не удивляйтесь)."
Это я к тому, что:
- ИИ можно допинывать до годного или до нужного тебе, ИИ тут вполне себе инструмент
- это стоит времени, если есть заказчик и не стоИт задача генерить тысячу треков в час.
- можно конечно жать кнопку "Давай еще", но этот подход не работает, как с картинками, музика немного сложнее
- для видео и аудио генераторов точно нужен интерфейс для редактирования треков. Об этом след пост.
А пока послушайте. Мне это слышится скорее как закрывающий трек для эпизода какого-то сериала. Обратите внимание как сделаны шумы (на картинке ответ).
P.S. Mike прислал картинку и mp3. Я просто спросил chatGPT:
I have png image and mp3 file - I need to make mp4 video using ffmpeg - give me ffmpeg comand
chatGPT: Апажалста: ffmpeg -loop 1 -framerate 1 -i image.png -i audio.mp3 -c:v libx264 -tune stillimage -c:a aac -b:a 192k -pix_fmt yuv420p -shortest output.mp4
Ибо Movavi не умеет в такое (жмакает картинку в хлам).
2024-04-19 07:07:22
А тем временем Stability AI увольняет около 10 процентов своих сотрудников, около 20 человек.
Пишут:
Решение об увольнении сотрудников является частью "стратегического плана по сокращению расходов, укреплению поддержки наших инвесторов и партнеров, а также предоставлению командам возможности продолжать разработку и выпуск инновационных продуктов".
Что ж такое там происходит? Мы тут все алкаем SD3, а кто ея будет допиливать?
https://www.theverge.com/2024/4/18/24133996/stability-ai-lay-off-emad-mostaque
2024-04-18 22:40:44
Примеры оживляжа картинок кнопкой Animate
2024-04-18 22:40:01
Замени говорю, котов на собак, потом на свиней, потом на людей. Он точно про нас что-то знает.
(про свиней тоже, зацените прикиды хрюш)
Промпт был "дай много котов, смотрящих в камеру"
2024-04-18 22:38:31
Пока все пишут про LLAMA-3, я тестирую новый генератор картинок от Метачки, который тоже вышел сегодня.
Включаете штатовский впн.
Залетаете на https://www.meta.ai/
Логинитесь фейсбучеком.
И ну генерить.
Он быстрый.
Генерит в 1280 на 1280.
Настроек нет, только промпт.
Генерит 4 картинки без всяких кредитов и подписок.
Когда сгенерил, есть кнопки Edit и Animate.
Edit работает интересно - он лихо заменяет котиков на собак, собак на свиней, а свиней на людей. Но не может в make it black and white.
А вот Animate генерит двух секундное видео из картинки. С людьми лучше даже не пробовать, а с котиками иногда получается интересно.
Он не хочет генерить нашу принцессу, и порой отказывается генерить совсем нейтральные промпты.
Но самое главное - иногда он переходит в режим ТУРБО и начинает генерить в реальном времени! Пока вы печатаете.
Так, я начал печатать picture of black square и заметил, что после слова black он безответственно сгенерил афроамериканца! Я стер square - и да, я не ошибся.
Потом я поиграл с picture of white, потом перешел к черным и белым парам, по следам истории с Гуглом. Белые пары оказались азиатами.
В общем - это очень интересный турбореактивный генератор, который генерит в высоком разрешении (иногда) в реальном времени (думаю это впн сажает пинг).
Всем срочно его тестировать!
https://www.meta.ai/
Почему он такой быстрый и как он умудряется генерить в реальном времени почитайте у Артема
2024-04-18 10:54:27
Ютюб мне постоянно подсовывает курсики типа "как заработать с помощью нейросетей" или "как покрасить пони в розовый в миджорни".
Соотношение шлака и годноты похоже инвариантно во все времена. Начиная с открытия книгопечатания.
Если за годноту, могу порекомендовать (бесплатный) марафон из 20+ спикеров с небанальными темами по четырём направлениям:
Users — реальные кейсы и применение нейросетей в бизнесе
Developers — технические детали и разработка ИИ-решений
Visioners — тренды развития ИИ и его будущее
Practics — мастер-классы и челленджи для отработки навыков
Марафон пройдет с 23 по 26 апреля на канале Магия Нейросетей.
Все подробности вот тут: https://t.me/NeuralMagic_official/8340
2024-04-18 09:19:44
VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time
Помните огненный липсинк EMO от Алибабищенко?
Держите ответочку от Микрософта.
На входе одна портретная фотография + аудио, на выходе - видео говорящего\поющего персонажа с липсинком, реалистичным поведением лица и натуралистичными движениями головы, создаваемыми в РЕАЛЬНОМ ВРЕМЕНИ.
Похоже тема липсинка скоро будет закрыта, а то wav2lip безнадежно устарел.
Смотрите примеры в твитторе:
https://twitter.com/minchoi/status/1780792793079632130
А также на сайте самого проекта:
https://www.microsoft.com/en-us/research/project/vasa-1/
Кода, конечно, нет, только бумага.
2024-04-18 08:47:56
Коль скоро я сегодня пасусь на продакт ханте, вот вам отличная новость - у Каскадера (про который я постоянно пишу, ибо знаю Женю, Диму и команду уже 8 лет), новая фича. Это Анбейкинг, который "распекает" анимацию, и позволяет редактировать мокап и ассеты.
Если на пальцах, то обычно анимация из мокапа - это ключи в каждом кадре. Редактировать это невозможно.
Теперь возможно с помощью Каскадера и Animation Unbaking.
Там также новые Retargeting и AutoPhysics.
Для аниматоров, инди-разработчиков и всех, кто работает с мокапом - маст хев.
Это я к чему: сегодня ребята бахнули этот эпический апдейт Каскадера на продакт хант. Поддержите неистовыми лайками, плюсами кликами и что там еще есть. Реально хороший продукт на фона шквала проходняка на ханте.
https://www.producthunt.com/posts/cascadeur-working-with-mocap-and-assets
Хотите подробнее?
Поглядите видео:
https://www.youtube.com/watch?v=euMb627cF9I
2024-04-18 08:34:05
Вот вам еще пример такого middle-ware стартапа, который говорит, мы сгенерим картинки, которые будут НРАВИТЬСЯ пользователям в соц-сетях. С вас только идея. Дальше мы сами.
Create Eye-Catching Social Media Graphics
Ну то есть оценка того, что будет нравиться кожаным делегируется ИИ.
Ладно, думаю, попробую, тем более вроде выпускники Y-combinator
Попробовал. Вкинул идею "Be Creative" - мы ж тут за творчество трём.
Задал палитру (черный, желтый, белый). Даже лого загрузил.
Получил вот такое "Границы - это прекрасно. Они показывают, где кончаешься ты и начинаются Эмоциональные границы", если убрать ошибки.
Дальше все это попадает в простенький веб-редактор типа нано-канвы.
Цвета мимо. Композиция мимо. Чем-то похоже на генераторы слайдов для презентаций, но с астрологическим уклоном.
Но. Опять же, вам шашечки или ехать?
Вам заливать контент тоннами в интернетик или самовыражаться?
Определитесь. ИИ поможет в обоих случаях.
https://www.sevn.ai/
2024-04-18 08:03:52
ИИ-кино и ИИ-творчество. Или сам себе ИИ-режиссер.
Тут у нас в коментах шквал музыкальной ИИ-годноты. Чтобы слабать ИИ-пестню, а точнее, чтобы оценить результат на слух, вам не надо много .. ну скажем так мозгов. Нравится или нет. Рынок попсы этим живет.
С кино все сложнее. Ну ок, вы можете сказать, я вот щас дам chatGPT идею и он мне все распишет и синописис, и сценарий, и персонажей, потом раскадровки и пр.
Но.
Боюсь вы не сможете оценить ни синопсис, ни сценарий. Нужен опыт, глаз, насмотренность и даже (о, боги) какой-то образование или хотя бы начитанность. (Тут мы говорим про крупные форматы, а не мемные видосы для тиктока и инсты). У вас может не хватить этих .. как его ... мозгов.
Ну то есть бутылочное горлышко в самом начале.
Самые смышленые неорежиссеры скажут, "а давайте поручим оценку годноты самому ИИ". И будут правы.
Смотрите, я сегодня тусовался на продакт ханте и нашел такой стартап.
"Обычно нас путают с платформами для создания видеоклипов, такими как Runway или Sora.
Снимать фильм - все равно что готовить. Эти платформы - это платформы для генерации ингредиентов, цель которых - создать желаемые фрагменты видео. Они не помогают вам решить, что готовить, как готовить, и не предоставляют кухню.
Directin AI - это кухня. Мы не только позволяем вам генерировать ингредиенты с помощью искусственного интеллекта в течение нескольких кликов, но и сопровождаем вас на протяжении всего процесса."
Я предвижу создание такие middle-ware стартапов там, где юзеры уже получили в руки инструменты для генерации контента, но не имеют ни начитанности, ни насмотренности, ни (самое главное) опыта. И тут ИИ такой: щас все порешаем и сделаем шедевр.
Но у меня вот такой вопрос. Судя по тому, как пользователи в сети остервенело генерят картинки, музику и видео, у них есть огромное желание "творить", самовыражаться, исторгать из себя нечто.
И когда приходит ИИ и говорит: "Стопэ, давайте я буду творить и делать в разы лучше", что почувствуют кожаные?
Сдается мне ответ простой в виде вопроса: "Вам шашечки или ехать?".
Вам деньги зарабатываться на производстве контента или самовыражаться?
ИИ поможет по обоим пунктам.
https://directin.ai/
2024-04-18 07:35:54
Продолжаем предвкушать Stable Diffusion 3.
Вот держите 100(сто) пар картинок, сгенеренных в SDXL и SD3.
Фаундер ScenarioGG провел титаническую работу и сравнил две модели.
Картинки в основном из области геймдева(логично), концепт-арта, персонажки, ассетов и окружений. Клянется, что не черипикал, то есть брал, что есть.
Тут я рискую переобуться и начать сравнивать одну красоту с другой, но сдается мне, что SD3 прям получше.
Листайте тут, там все разбито по парам и промпты напечатаны сверху.
Го сравнивать красоты!
https://twitter.com/emmanuel_2m/status/1780831947335381010
2024-04-17 15:35:56
Оппа, релизнули Stable Diffusion 3 API.
https://stability.ai/news/stable-diffusion-3-api
Что это значит для нормальных людей?
Правильно, пока ничего.
Но можно почитать документацию, чтобы посмотреть, что там за параметры у нее на входе:
https://platform.stability.ai/docs/api-reference#tag/Generate/paths/~1v2beta~1stable-image~1generate~1sd3/post
За цены можно посмотреть тут.
While the model is available via API today, we are continuously working to improve the model in advance of its open release. In keeping with our commitment to open generative AI, we aim to make the model weights available for self-hosting with a Stability AI Membership soon.
2024-04-17 14:53:40
Мне основную массу новостей приносит твиттор, реддит и подписчики (которые иногда присылают прям шедевры, за что им спасибо).
Также я подписан на ряд широко известных каналов в узких кругах админов ИИ-каналов.
Выделил для себя следующие:
Бурый — Серега красавчик, потому, что пишет авторские тексты, с юмором, тестирует ИИ сам и пишет максимально субъективно (это плюс).
Нейронавт | Нейросети в творчестве — Нейронавтика знаю лично еще по Питерским Ивентам и прошлой жизни в CG и VFX. Фильтрует интересные бумаги, экономит время.
Tips AI | IT & AI — много про графику, мне это нравится и много смешного, иногда хочется отдохнуть от гитхаба.
ИИволюция — канал Сергея Пахандрина, хорошая подборка новостей и лайфхаков по применению ИИ для решения разных задач.
Psy Eyes — дико полезные полезные дайджесты от Андрея, просматриваю регулярно, много технической годноты. Нахожу много пропущенного. Увожение.
2024-04-17 11:23:09
Про Stable Diffusion 3 пока невеселые новости. Сроки вообще непонятны.
Как пишет главный SD3 инфлюенсер Лыкон: Архитектура все еще меняется, не имеет смысла выпускать это сейчас, это только внесет путаницу. Может быть, API.
Подробности вот тут.
https://twitter.com/Lykon4072/status/1780173231334236367
2024-04-17 11:16:17
Нейрорендер набирает обороты.
Хави Лопес пишет "В будущем каждый пиксель в видеоигре будет не РЕНДЕРИТЬСЯ, а ГЕНЕРИРОВАТЬСЯ в реальном времени. Но люди уже сегодня создают безумные "рендеры с искусственным интеллектом".
Я тоже давно топлю за то, что нейрорендер может заменить огромную часть пайплайнов, особенно в архитектурке и продуктовом дизайне.
Но посмотрите на эти 18 фантастических примеров по ссылке:
https://twitter.com/javilopen/status/1780236456835072257
Да, это пока статика, но какая статика!
Конечно Хави топит за свой Magnific_AI, где он Founder.
Но все это великолепие перекладывается на любые другие генераторы, от Креа и Визкома до экстеншенов к A1111 и ComfyUI. Или плагинов к Синьке, о которых я писал.
Просто поглядите этот твиттор.
А я вынес в шапку традиционный рендер-бокс. Чтобы вы оценили, как надо было бы упороться в щейдинг, текстуринг и лайтинг, чтобы отредерить такое безобразие. И разнообразие.
И да, на входе просто скетч. И промпт-хотелка. И это НЕ 3Д.
2024-04-17 10:57:56
ИИпиляция и бриитьё в реальном времени.
Это вам не бьютификация в Фотошопе!
Корейцы из soy.lab жгут, конечно.
Пора пересаживаться в ComfyUI.
2024-04-17 10:52:24
Harmonai, которые на самом деле делали Stable Audio 2.0, выпустили статью с техническими подробностями, демо, и даже плейлист на Soundcloud.
Забирайте все ссылки вот отсюда.
2024-04-17 10:31:41
Я уже писал год назад про Spline. Это такой смешной 3Д-моделинговый софт, который работает прямо в браузере, там как бы нет рендера - все во вьюпорте, там есть events - как в наноигровом движке и всякие транзишены.
Этакий 3Д-вордпрессик для хипстеров.
Так вот, софтинка как-то жила, никого не трогала.
А потом - бум! Ребята просто сказали, что они прикручивают text-to-3D. Как и многие другие.
И что вы думаете - сразу подняли 16 миллионов. Долларов.
Вчера выкатили фичу генерации.
Я, конечно, прибежал, высунув язык, но эти алчные стартаперы сходу просят 30 долларов, протестировать не дают, бесплатных кредитов не насыпают, просят верить на слово.
По видосу выглядит все сладко, но сдается мне видос собран из их собственной базы объектов.
Кто протестировал, пишите.
https://spline.design/ai-generate
2024-04-17 09:55:48
Ну и завершим марафон за красоту вот таким девайсом.
Про секс-игрушки Myhixel на основе ИИ и оргазмы "с умом" на основе ЭЭГ я уже писал.
Но тема настолько горячая, что пошла в народ. Один чувак сделал умную вагину, которая:
-подстраивается под действия пользователя
-кличет его по имени и изрыгает непристойности
-умеет имитировать оргазм
-вся светится от щастя в лучших цветах RGB
-внутри у нея неонка и нейронка
Видео получилось с одной стороны очень непристойным(на слух), а с другой - там ничего такого, чувак просто занимается A\B тестами с использованием пальпируя руками железяку. А на экране просто железные (ну ок, силиконовые) внутренности девайса.
Смотреть больше видео тут:
https://orifice.ai/
Ну и все это мне напомнило (ни с того ни с сего) мой вчерашний секс с Илоном Маском. И слова лип синк заиграли совершенно новыми красками.
Так, автор, угомонись.
2024-04-17 09:24:04
Продолжим за красоту. И за попытки ея измерить.
Вот вы\мы тут шутили, что генерить картинки и тексты будет ИИ, а смотреть и читать все это .. тоже будет ИИ.
Дошутились, вангоиды.
Держите, футурологи: Конкурс "Мисс ИИ", где традиционные конкурсы красоты переходят в мир создателей искусственного интеллекта. Конкурсанток будут оценивать по красоте, технологиям и влиятельности.
А теперь внимание, в составе жюри те самые:
Aitana Lopez, International AI Creator & +$100k fanvue earner
и
Emily Pellegrini, International AI Creator & +$100k fanvue earner
Цифровые твари, про которых я уже писал.
ИИ генерит красоту, ИИ ее же и оценивает. И награждает. Там призов на 20 000 долларов. Первое место 13К.
И интересно, что на сайте написано:
Конкурсанток будут оценивать по некоторым классическим аспектам конкурса, включая красоту, самообладание и уникальные ответы на ряд вопросов, таких как "Если бы у вас была одна мечта сделать мир лучше, что бы это было?".
Я вот не уверен, что там будут битвы чат-ботов.
Ведь за за всей этой затеей стоит агенство Fanvue, которое и выводит Аитану или Эмили в топы инсты. И там на бекстейдже кожаные копирайтеры и сммщики.
Так что в принципе - это просто хороший маркетинг ход агенства с громким названием
The World AI Creator Awards.
Ну и вишенка на торте.
Вам ничего не светит, если у вашей ИИ-модели нет тонны подписчиков в соц-сетях. Конкурс для богатых ИИ-инфлюенсеров, нищеброды. Лайки - новое золото.
В общем ИИ-илита и ИИ-богема начинают жить своей жизнью.
Генерить ИИ контент, потреблять его, зарабатывать на нем. И на кожаных.
https://www.waicas.com/
2024-04-16 18:32:09
Недавно писал про бенчмарки для изображений. Не поленился, посмотрел в интернетике, как оценивают картинки на разных ресурсах. Причем не в бумагах или пресс-релизах к новой модели, где черипикнутые картинки уделывают конкурентов, а просто на технических сайтах.
Нашел вот такое описание метрик.
Соблюдение семантической нагрузки: Насколько точно созданное изображение отражает основную концепцию или сообщение, переданное в подсказке?
Композиционная гармония: Является ли изображение сбалансированным и эстетически приятным расположением элементов?
Художественный подтекст: Вызывает ли изображение какие-либо более глубокие эмоции, идеи или символизм, выходящие за рамки буквальной интерпретации подсказки?
Верность передачи техники: Если в задании требовались определенные художественные стили, насколько эффективно модель передала суть этой техники?
Вот один из примеров такого хит-парада.
Из интересного пишут такое:
В ходе эксперимента особое внимание было уделено сервисам, построенным на основе проприетарных моделей, что позволило выявить удивительно ограниченный ландшафт, в котором доминируют США, Россия, Индия и Китай - иллюстрация необходимых огромных технологических и финансовых ресурсов для разработки таких проектов.
Также из интересного: Кандинский занял пятое место, а ЯндексАРТ - десятое.
Про китайцев из Tongyi Wanxiang уже писал.
А вот про индийский Kalaido я ничего не слышал, пойду погляжу, что это.
И похоже что Turbo вписали по ошибке..
Какая картинка из какого генератора можете поглядеть по ссылке:
https://techbullion.com/a-showdown-of-creativity-a-comparative-analysis-of-proprietary-generative-ai-image-models/
А мне по прежнему интересно, как можно так измерять неизмеримое?
Или измеримое?
2024-04-16 14:02:14
Нейро: Яндекс запустил новый продукт на стыке поиска, LLM и генеративных нейросеток.
Позиционирование довольно интересное.
Нейро — это не ассистент, не бот, не собеседник и даже не поиск. Он не ведёт беседу, он, скажем так, делает рисёрч.
Это некий метапоиск на максималках: Нейро собирает из источников готовый ответ. Обещают «Ответ, в котором весь интернет».
По замыслу это ближе всего к Gemini или даже к Perplexity, но Нейро лучше всего понимает русский язык и отвечает на нём. Спрашивать можно разговорным языком, а когда не хватает слов, можно подключить картинки (!). А в ответах всегда есть ссылки на источники.
Всё это хорошо бьётся с другими «нейробрендами» от Яндекса. Нейробраузер, Нейроперевод. Такими темпами у нас скоро будет Нейроинтернет.
Надо тестировать, звучит интригующе.
2024-04-16 13:41:09
Кунг-Фу Панда 4.
Добавлю немного воздуха в канал. Посмотрел много разного: Сёгун, Фоллаут, Шугар. Оценки 5, 1, 10 соответственно. Но больше всего ждал Панду 4.
Я не знаю, почему все так взъелись на четвертую часть. Это хорошее, крепкое продолжение франшизы. У нее непростая судьба - запустили еще до короны, потом замораживали, потом размораживали.
Но как обычно, анимация великолепна, юмор прекрасен, картинка топ.
Да, история не так глубока, как в первой и третьей частях, но моя лояльность к Панде так велика, что я прощаю этот недостаток. У меня слишком много связано и с ДримВоркс, куда я захаживал еще в нулевых и докладами на Ивентах про производство франшизы.
В общем я обусловленный добрый зритель и мне понравилось. И это нечастый случай, когда я смотрю в русской озвучке - исключительно ради Галустяна.
Вы спросите, а шозахрень на видео?
Это я нашел идеальный референс, с которого делали сцену заточения Тайлунга в тюрьме в самой первой серии. Помните его, закованного в броню и цепи? А в жизни он серый и относительно пушистый.
Всем хорошего добродушного просмотра.
2024-04-16 10:37:50
И снова 3Д!
Мне пришел доступ в бету Родена:
https://hyperhuman.deemos.com/rodin
Причем пускает с двух имейлов, что наводит меня на мысль, что бета открыта для всех, надо только залогиниться.
Дают 10 кредитов (мне дали еще 10 как бетатестеру).
Я быстро закинул туда неорганику с плоскими гранями (майнкрафт, генерация из текста) и органику (картинку из какой-то японской рисовалки типа Креа).
Чтобы поглядеть на качество и сетку.
Ну что сказать, интерфейс конечно очень мудреный, но если успокоиться и пристально поглядеть можно разобраться.
Генерит PBR-материалы, честно старается заретопить, причем квадами(!), что очень похвально.
На плоских гранях, конечно, лажает. Нужен дополнительный ИИ, который будет работать с плоскими гранями и острыми углами.
Кредиты берут за выгрузку модели (obj, fbx, glb, usd), превьюить можно просто так. Есть Функция Redo, которая как бы уточняет результат.
Шаг вправле-влево, просят денег. Но 10 кредитов хватит да пару тестов.
Го тестировать, а я вам пару скриншотов сброшу.
P.S. Там даже есть Toon Shader
А еще он смешно пишет "я не могу показать, по какому промпту я сгенерил эту девушку, но я сделаль". См скрины.
2024-04-16 09:39:41
AI Assistants on Demand.
Или Сири с любыми мозгами, голосом или лицом. В вашем телефоне.
Короче, я провел воскресенье вот с этой штукой: https://github.com/Mozer/talk-llama-fast
Поплясав часа три мне удалось собрать из гугла и палок работающий вариант на моем домашнем компе (Intel Nuke с RTX 3060 12G VRAM, 16G RAM, Win10). Моя задача была именно запустить все это хакерское хозяйство, а не доводить это до идеальных ответов, поэтому, когда Илончик стал хотя бы отвечать и попадать губами в звук, я остановился.
Я просто прошу у него денег, от отказывается, покуривая косяк, и отвечает мне МГНОВЕННО, используя mistral-7b-instruct-v0.2 как мозги, whisper.cpp и XTTSv2 как озвучку, и wav2lip как липсинк. На моем компе! Задержки действительно почти нет.
Еще раз, это не проверка качества, это тестирование будущих прототипов. Не ищите блох. А просто представьте следующее.
Вы запускаете приложение и:
- выбираете мозги (любую LLM, хоть закрытую(вводя ключ) хоть открытую из 15 000 вариантов). Мозги под настроение или задачу.
- выбираете скин - тоже под настроение, это может быть фото, видео или описание, можете сгенерить, селфануть, нарисовать.
А дальше у вас есть собеседник, аватар, ассистент, банковский ресепшен, бой\гёл\френд, whatever - цифровая тварь, с которой вы общаетесь как в зуме или мессенджере.
Мозги или лицо можно также менять динамически.
В общем, я когда это запустил, то подумал, что цифровые твари уже за углом.
Пока это, конечно, архинедружественно, сложно, глючит, падает. Чего стоит установка двух анаконд для разных серверов. Ну и за год, кстати, мало что поменялось. Работа с опенсорсными LLM - это такая мизантропия по отношению к пользователю. Я описывал этот тут.
Но рано или поздно это зайдет на уровень операционной системы, в этом смысле я очень жду чего там Эппле покажут в июне.
Я пока можете сами попробовать, вот тут есть ответы, что и куда надо прописать, чтобы MS библиотеки завелись.
P.S. Мистраль, конечно, вообще без тормозов. Ругается матом, требует денег. Идеальный вариант для NSFW.
2024-04-15 19:56:39
Пруф про SORA и OpenAI в Adobe Premiere.
2024-04-15 19:52:37
Нейрокомпоз от Адобченко.
Так, мы все бросаем и смотрим вот сюда:
https://www.youtube.com/watch?v=6de4akFiNYM
До конца. Потому что там не только автокей, удаление или добавление объектов и прочий нейрокомпоз в Премьере. Там еще можно выделить видеотрек и сказать, а продолжи его дальше (а то у меня съемочный видос закончился). Он его продолжит, как Суно или Удио продолжают музыкальные треки.
Дальше совсем уж дичь, ибо в демо появляется лого OpenAI и всуе поминается великая и ужасная SORA. Которая лихо генерит Би-Роллы для выбранных видосов. Между строк также поминают Пику и Рунвей, как подключаемые внешние модели для генерации видосов. Ну и конечно Firefly Video Model.
Обещают в релизе в конце года, хотя начнут раскатывать на пользователей в мае.
Крутизна в том, что все это генеративное видео перестает быть сферическим контентом в вакууме, сгенеренным в градио-интерфейсах, а становится частью пайплайна и встраивается в ИНСТРУМЕНТЫ, а не в кнопки.
Браво, Адобченко. Тащи также музыкальные генераторы в свои софты, чтобы был нормальный таймлайн и крутилки.
2024-04-15 15:55:15
И снова 3D AI меня настигает из твиттора.
Про Deemos Tech и их Родена (Rodin Gen-1) я писал много раз.
Но тут они замыслили совсем уж 3Д-безобразие.
Сейчас, говорят, запустим свой Rodin Gen-1, а потом опенсорснем вот такую модель!
CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets
Будем, говорят, ИИ-создавать высококачественные 3Д-ассеты.
И ну выкладывать две картинки на Гитхаб!
Выглядит нарядно, но ни кода, ни даже бумаги пока нет. Только две картинки и твиттор:
https://twitter.com/DeemosTech/status/1777376590743359911
Судя по демкам Rodin Gen-1 потенциал у них явно есть. Очень ждем.
2024-04-15 15:20:40
Генеративное интерактивное 3Д.
В прошлом посте было про ИИ-создание миров, а вот вам связка Dreams, Krea and 3daistudio для создания трехмерного персонажа.
Выглядит просто убойно, потому интерактив и реалтайм.
Как пишет автор: 3d-модель в конце видео была сгенерирована из результатов работы Dreams+Krea всего за 15 секунд. Только модель слева является "настоящей" 3d-моделью.
Да, это не продакшен качество, но это пайплайн, который взрывает мне мозг. Просто посмотрите на это безобразие глазами себя двухлетней давности.
2024-04-15 14:37:40
Вот вам прототипы будущих метаверсов.
Не убогие мирки с лоу-поли персонажами, которые не знают, что делать.
А, скажем так, world-on-demand.
Берешь в руки шашки (в данном случае Dreams плюс Krea.ai) и начинаешь создавать мир ПРЯМО у себя в голове.
Автор пишет, что записанный видос в таком качестве не передает того катарсиса, который он испытал.
Именно поэтому интерактивные инструменты, а не кнопкожательство будут важны при построении миров.
Ну и в пределе ИИ будет читать ваши мыслишки и строить картинки сам. У вас в голове. Примерно вот так, как на видео.
2024-04-15 11:45:49
Музыкальные бенчмарки.
Предлагаю коллективно поразмышлять над стремлением кожаных все измерить, дать оценки, придумать метрики и расставить все по рейтингу.
(За рамками остается дискуссия про оценки в школе, всякие IQ-тесты и лекции Сапольского на эту тему).
Мы наблюдаем битвы бенчмарков и всякие чат-арены, где LLM хлещутся за первые места в хит-параде. Разработчики тоже не дураки, включают тесты из этих бенчмарков в обучающие датасеты, читеринг поставлен на поток. Немного напоминает ситуацию с экзаменами - выучил билеты, ответил на вопросы - хороший образованный мальчик. Смышленые мальчики пишут шпоры и сдают на отлично. Метрика простая и понятная.
Интереснее с "эстетическими бенчмарками" для картинок. Разработчики уверяют нас в своих бумагах, что "мы показали кожаным наши картинки, и они нравятся им больше, чем картинки от конкурентов". Гусарам верят на слово, но холивары между свидетелями Midjourney и технократами от Stable Diffusion не утихают. Любимое занятие - присовывать похожие промпты в разные генераторы и сравнивать пиксели на уровне "наши пиксели лучше".
Теперь на сцену выходят музыкальные генераторы. Я наблюдаю в ютюпчике битвы между Suno и Udio, когда в них вонзают одинаковые промпты и сравнивают полученные треки. Как вы понимаете, получается битва вкусовщины.
Наверное, стоит ожидать появления "Музыкального Ринга", где юзеры будут генерить треки вслепую, не зная, какой генератор пишет музыку и ставить лайки, по аналогии с чат-бот-ареной.
И кожаные будут продолжать биться за внимание, количество лайков, прослушиваний, оценок.
Соц сети прочно поселили в нас желание сравнивать себя и других с какими-то умозрительными метриками. И платим мы за это тревогой.
Может хотя бы музыку и картинки мы будем воспринимать просто так, для удовольствия?
Держите еще один (уже не новый) генератор фоновой музыки. Его плюс в довольно ловком механизме редактирования и допинывания результата до годного. Для музыкальный "фонов" самое то.
А в коментах можно продолжить битвы, кто круче. Мы ж по другом не умеем...
https://soundraw.io/
2024-04-14 16:14:33
Держите хорошие утечки про Stable Diffusion 3.
Очень добротный разбор разных режимов работы, стилей и даже лёгкий анализ применимости.
Ничего про требования к железу и время генерации тут вы не услышите - тестирование целиком в дискорде, то есть в облаке.
Если вкратце.
Качество огонь, особенно на абстракциях, продуктовом дизайне и архитектуре.
С фото и портретами - мало информации, но фотографы хвалят.
С управляемостью композицией - беда, особенно для некожаных объектов. Вся надежда на КонтролНет.
LLM-промптинг - да, работает, меньше вуду и скобочек в промптах.
Народ усматривает некую "миджорниевость" в картинках. Наверное это плюс, ибо на файнтюнах можно будет уйти в любую картинку.
В общем поглядите, очень хорошая подача у автора. Никаких визгов "ойсморитечо". Все ровно и по делу.
https://youtu.be/mQSKoAEaIJA?si=OiZ6vkKwEYC5ywLP
2024-04-13 10:07:16
Вынесу из коментов такое наблюдение.
Я тоже замечал, что chatGPT довольно "злопамятный", ну или просто занудный - помнит все разговорчики и ведёт себя соответственно. Даже если я открываю новые чаты и генерю новые картинки.
Но чтобы Automatic1111 вел себя также - это уже совсем интересно.
Как думаете - это теория заговора, когнитивное заблуждение или имеет место быть на самом деле?
"Заметил что у SD на а1111 есть галлюцинация с предыдущей генерации. Даже если ты откроешь новую чистую вкладу а1111 и сделаешь промпт с надписью 1, то он тебе нарисуется что-то отдаленно похожее с прошлой генерации. Как будто к кеше осталось немного инфы
Но это часто помогает найти нужный результат, Как бы такой метамикс для создание чего то прям нового, но в тоже время подходящего по задаче"
P.S. есть такое явление, когда chatGPT отвечает Очень быстро, это значит, что он нашел у себя в кеше (на том серваке, на котором крутится ваш чат), похожий запрос и отвечает по нему. "Похожий" не в смысле тестового совпадения, а похожий в векторном пространстве эмбедингов, похожий "по смыслу". Где похожие смыслы - это области латентного пространства, близкие дуг другу.
Таким образом он экономит время на ответы.
2024-04-13 09:59:13
Это вроде не фейк. Поэтому я дрожащей рукой поднимаю горькую за стендаперов.
Не чокаясь.
Получается, что и юмор тоже токенизируется....
Скоро будем просить ИИ попетросянить с утра для поднятия настроения.
И да, юморок кондовый, но вы же помните, какие картинки были два года назад.
https://www.udio.com/songs/aviCwYvPnTnhb4qHq5iAmZ
2024-04-12 11:46:32
Тут вот интернетик кипит новостями про Apple AI-Focused M4 Chips Starting in Late 2024
Держите подробностей. 512 гиг объединенной памяти звучит солидно.
По слухам, Apple уже близка к производству процессора M4, и ожидается, что он будет представлен как минимум в трех основных вариантах. Чипы под кодовыми названиями Donan для младшего класса, Brava для среднего и Hidra для высшего. Чип Donan будет использоваться в MacBook Pro начального уровня, MacBook Air и Mac mini низкого уровня, а чипы Brava - в MacBook Pro и Mac mini высшего уровня.
Чип Hidra предназначен для Mac Pro, что позволяет предположить, что это чип уровня "Ultra" или "Extreme". Что касается Mac Studio, то Apple тестирует версии с еще не выпущенным чипом M3 и разновидностью процессора M4 Brava, который, предположительно, будет более высокого уровня, чем чипы M4 Pro и M4 Max "Brava".
Настольные компьютеры Mac версии M4 могут поддерживать до 512 ГБ объединённой памяти, что станет заметным скачком по сравнению с текущим лимитом в 192 ГБ.
Чипы M4 будут построены по тому же 3-нанометровому техпроцессу, что и чипы M3, но поставщик Apple компания TSMC, скорее всего, будет использовать улучшенную версию 3-нм техпроцесса для повышения производительности и энергоэффективности. Apple также планирует добавить значительно улучшенный нейронный движок с увеличенным количеством ядер для задач искусственного интеллекта.
2024-04-12 11:33:13
Ничего себе.
Это реалтайм и полная задержка от голосовой команды до видео ответа - всего 1.5 секунды! С липсинком!!
Работает на 3060 12 GB
Nvidia на 8 GB, скорее всего, тоже хватит(!!)
Под капотом:
- STT: whisper.cpp large
- LLM: Mistral-7B-v0.2-Q5_0.gguf
- TTS: XTTSv2 wav-streaming
- lipsync: wav2lip-streaming
- Google: langchain google-serp
Код?
А пажалста:
github.com/Mozer/talk-llama-fast
Всем срочно ставить на выходных и тестировать.
Русский вариант: https://www.youtube.com/watch?v=ciyEsZpzbM8
Английский язык: https://www.youtube.com/watch?v=N3Eoc6M3Erg
2024-04-12 09:35:21
Я немного скептически отношусь ко всем этим курсам промптинга для chatGPT. Если вы посидите в тишине с моделью один на один, то довольно быстро поймете, как решать ту или иную задачу.
Кроме того, в разных ситуациях требуются разные подходы, и если пихать одни и те же рецепты в разные задачи, то результат может быть забавным.
Тем не менее нашел очень приличную работу по обобщению техник промпт-инжиниринга, в которой даже есть акцент на разработку приложений с помощью LLM.
Там даже есть про RAG, вывод в JSON, много ссылок на статьи, а не просто рецепты типа chain of thoughts.
Ну и оформлено очень хорошо.
Сам гайд тут:
https://big-picture.com/media/the_prompt_engineering_cheat_sheet.pdf
А инструкции и пояснения тут:
https://medium.com/the-generator/the-perfect-prompt-prompt-engineering-cheat-sheet-d0b9c62a2bba
2024-04-11 18:39:10
Тут у меня родилась идея для челленджа.
Помните, я постил про сервис ИИ-музыки Loudly.
Приводил оттуда три трека.
Так вот, два из них Shazam прекрасно распознал.
И если к первому, он нашел как бы похожий трек.
То вот к этому треку (Building Snakes) он нашел в сети полное совпадение:
https://www.loudly.com/music/song/Building%20Snakes-2d8275ba-277b-11ec-b46c-064f3e9f608e
https://www.youtube.com/watch?v=uTREaiakPPQ
Я полез смотреть, что это за трек и попал в какую-то кроличью нору. Рандомный контент, дикие фотки, случайные треки.
Хотя именно этот трек загружен еще в 2022.
Я блуждал по ссылкам с ютюба и попадал в какой-то ад. Что это вообще?
Года три назад я читал про ботов, которые заливают в ютюб рандомный контент тоннами, чтобы один из каналов могу выстрелить. В основном генеративная (но не ИИ) музыка с картинками.
Сейчас я понимаю, что круг замкнулся.
ИИ-генераторы, подсовывают мне музыку из старых попыток завалить ютюб странным контентом.
Расскажите мне, что это за совпадение, что это за странный канал и как это все работает.
А челендж в том, чтобы находить с помощью Shazam совпадения ИИ-треков с реальными треками.
Не пробовали?
Я вот попробовал.
2024-04-11 09:20:09
Я теперь представьте, что имея копию нашего мира в 3Д мы можем давать ей любые скины. И смотреть, например, спортивные трансляции вот так.
Хей, сири/сора(или кто есть в доме), сделай конские перчатки и повесь тайную вечерю на стену.
2024-04-11 09:11:47
В дополнение ко вчерашнему посту о цифровом двойнике нашего мира.
Да, ИИ-шечка уже умеет вытаскивать позы НЕ ТОЛЬКО из тиктоковских тянок пляшуших на камеру, а способен работать "в полях". И оцифровывать вот этих вот суровых английских мужуков.
Я уже постил похожий кейс с футбольного поля, но там был специально заготовленный сетап из десятков камер и целая команда на бэке.
Тут, как вы понимаете, даже не высшая лига. И обычная камера.
Мы все уже оцифрованы, а метаверсик живет своей жизнью. До времени.
2024-04-11 08:57:38
Помните времена, когда из музыкальных генераторов были только Муберт и Айва? И музыка была такая ... амбиентная.
Интернетик приподвзвизжал про Udio, давайте я тоже всприподвзвизжу, но нескучно, а с историей.
Неделю назад в сети начали появляться утечки генеративной музыки из "анонимного" генератора. И прикол в том, что в текстах песен анонимы явно троллили Суно (cv видео).
Влогеры взорали, твиттор взвирусился, и тут бах, UDIO.COM выкатили свой сервис.
Сначала типа в бету (fomo), а потом в общий доступ.
Короче идем на https://www.udio.com/ и сначала подвязываем челюсть, а потом слушаем образцы. Когда адаптируетесь к реальности, начинайте пробовать сами и сбрасывайте в коменты, можно сделать 1200 генераций в месяц бесплатно. Треки по 32 секунды (пока). Нагрузка на сервера бешеная, иногда долго думает.
Умеет не только пестни, но и в инструментальные треки. С русским не тестировал (жду в коментах).
Интересно, что есть аналог CFG Scale для Image-to-Image, под названием Remix. Берете трек и говорите, насколько его переремиксить, насколько сделать его отличным от оригинала.
Звучит настолько чисто, что у меня есть гипотеза, что там навален нехилый такой постаудиопродакшен на все результаты. И вероятной не ИИ-шный, а традиционная чистка, расширение базы и прочие цифровые улучшайки.
В общем я в шоке.
Также напоминаю по https://sonauto.ai/ - еще одну ответочку Суно.
Если хотите еще ИИ-музыки, то поглядите тут
А я предвижу взрыв обучающих курсов и инфоцыганских баллад о том, как создавать шедевры в Суно или Удио. Хотя у Суно есть своя Вики и там все написано. Но хтож ее читает.
http://suno.wiki
2024-04-10 14:50:58
Интересно наблюдать, как отдельные ИИ-решения типа генераторов картинок, или чат-ботов, или создания видео, или вообще генераторов разной всячины постепенно превращаются во встраиваемые сервисы, где юзер уже не ходит за картинками в одно место, а за текстами — в другое. Майкрософт делает из Бинга комбайн, Гугл сейчас встраивает Gemini во все свои аппы, а я пошел поглядел, что делает Яндекс после своего нейробраузера.
У них там появилась платформа Yandex Foundation Models. Несколько моделей машинного обучения, в том числе YandexGPT для генерации текстов и эмбеддинги для задач семантического поиска.
Там же YandexART, о нем — ниже.
Все через единый интерфейс, там можно решать и бизнес-задачи, используя несколько генеративных моделей сразу. Например, создавать текст для рекламного объявления с помощью API YandexGPT, а иллюстрации — с помощью API YandexART.
Что касается YandexART, его уже можно использовать через API, причем сеть доступна для тестирования бесплатно. https://console.yandex.cloud/link/foundation-models/yandexart
Ну и доворачивая мысль про встраивание, YandexART можно использовать не только как маркетинговый инструмент, но и в разработке как единую платформу для работы с API: единый интерфейс, не нужны сторонние аппки, провайдер работает с инфраструктурой. Также это классное подспорье для креаторов, чтобы генерить референсы, которые не получилось найти в интернете.
То есть все эти генераторы всего, которыми мы упивались год назад, вползают в кнопочки и менюшки привычных сервисов. Пройдет еще год — и мы перестанем отличать, что сделали мы, а что сделал ИИ: мы что-то там накликали и напечатали по работе, ИИ по ходу поучаствовал, клиент или начальник доволен. И уже никто не рядится по поводу стохастических попугаев.
А насчет YandexART есть подробнейшая статья, как она научилась делать картинки, которые нравятся людям. За два года.
https://habr.com/ru/companies/yandex/articles/805745/