Новый видеогенератор от Гугла
Новый видеогенератор от Гугла.
Тут телеграмчик приподвзвывает про новый input-to-video генератор. Под скромным названием Люмьер.
Можете посмотреть на эту прелесть вот тут:
https://lumiere-video.github.io/ (пейпер есть, кода, естественно, нет).
Мои мысли ниже (мы ж тут про авторский канал, а не агрегатор новостей).
1. Генератор не то чтобы новый. Он как бы очень старый.
Напомню, что Гугль одним из первых бахнул text-to-video генератор почти ПОЛТОРА года назад (хорошо иметь свой канал, там все зафиксировано).
https://imagen.research.google/video/
https://t.me/cgevent/4343
Глядя на примеры, я вижу ту же панду, того же мишку, корабли в море, что меня немного смущает. Да их качество стало НЕМНОГО лучше, но говорить о скачке или прорыве не приходится.
2. Image-to-Video выглядит довольно вторично, тут Гугль в роли догоняющего. А в сети уже есть аналогичные "оживлялки". С Моной Лизой совсем кринж.
3. Video Stylization выглядит нарядно. Но камон, помните когда Runway выкатил первый GEN-1 и ролики Карен Чен? Вот это взрывало мозг. Сейчас смотрится опять же вторично.
3. Cinemagraphs. Это как бы image-to-Video в выделенной области. Тут как бы новое название той же фичи.
4. Video Inpainting интересный, но примеры невыносимо синтетические и вакуумно-сферические. В посте такое очень пригодилось бы, но здесь просто демо и продуктовой мыслью тут и не пахнет. Опесорсные решения типа Select/Animate/Anything явно ближе к народу. И тут я жду, что сделает Адобченко, у которого тоже все хорошо с датасетами и ресерчем.
5. Переодевалка на видео выглядит очень круто. Правда с волосами там забавности, он их явно прорежает. Вчера писал про Superlook, там ребята тоже пилят примерку на видео, но на основе опен-сорса. И этот последний блок на сайте с совами и одеждой выглядит наиболее интересно с продуктовой точки зрения. Но где Гугл и где продукт? Пока это демо и папира, которые (возможно) когда-то зайдут в Google Photo и новые версии Pixel.
А теперь поворчу. Вы помните какой был прогресс в 2022 году от кринжовых версий Disco Diffusion до летних сенсаций от Stable Diffusion и Midjourney и DALLE-2?
Прогресс в видеогенераторах медленный. Видео - оно само по себе сложное. Там не просто пиксели бегают по картинке, там шевелятся десятки сущностей: персонажи, фоны, освещение, тени, фокусное расстояние, текстуры и еще много всего. Разметить картинку и разметить видео - немного разные задачи. Описать движение? Попробуйте сами двух словах. Промпты должны быть величиной с дом для попадания в замысел сам себе режиссера.
Поэтому, как я уже давно ворчу, рассказывание историй - за горами. А вот реклама, моушен, клипы, музыкальное видео и любой настроенческий видео-ряд - это прям новая поляна для генеративного видео. Тик-ток ждет этого добра.
И пример с паровозом мне приглянулся своими мамкиными спец-эффектами. На поляне симуляций (вода, огонь, взрывы и вот это вот все) это быстрое пришпандоривание эффектов может очень хорошо зайти в контент для соц-сетей и даже телика и новостей. И тут Адобченко точно может развернуться.
На итоге: я ожидал от Гугла в разы большего. Кто как не Гугл является держателем самого огромного (полуразмеченного) датасета с видео.
Жду ответочки от Адобченко.
https://lumiere-video.github.io/
Тут телеграмчик приподвзвывает про новый input-to-video генератор. Под скромным названием Люмьер.
Можете посмотреть на эту прелесть вот тут:
https://lumiere-video.github.io/ (пейпер есть, кода, естественно, нет).
Мои мысли ниже (мы ж тут про авторский канал, а не агрегатор новостей).
1. Генератор не то чтобы новый. Он как бы очень старый.
Напомню, что Гугль одним из первых бахнул text-to-video генератор почти ПОЛТОРА года назад (хорошо иметь свой канал, там все зафиксировано).
https://imagen.research.google/video/
https://t.me/cgevent/4343
Глядя на примеры, я вижу ту же панду, того же мишку, корабли в море, что меня немного смущает. Да их качество стало НЕМНОГО лучше, но говорить о скачке или прорыве не приходится.
2. Image-to-Video выглядит довольно вторично, тут Гугль в роли догоняющего. А в сети уже есть аналогичные "оживлялки". С Моной Лизой совсем кринж.
3. Video Stylization выглядит нарядно. Но камон, помните когда Runway выкатил первый GEN-1 и ролики Карен Чен? Вот это взрывало мозг. Сейчас смотрится опять же вторично.
3. Cinemagraphs. Это как бы image-to-Video в выделенной области. Тут как бы новое название той же фичи.
4. Video Inpainting интересный, но примеры невыносимо синтетические и вакуумно-сферические. В посте такое очень пригодилось бы, но здесь просто демо и продуктовой мыслью тут и не пахнет. Опесорсные решения типа Select/Animate/Anything явно ближе к народу. И тут я жду, что сделает Адобченко, у которого тоже все хорошо с датасетами и ресерчем.
5. Переодевалка на видео выглядит очень круто. Правда с волосами там забавности, он их явно прорежает. Вчера писал про Superlook, там ребята тоже пилят примерку на видео, но на основе опен-сорса. И этот последний блок на сайте с совами и одеждой выглядит наиболее интересно с продуктовой точки зрения. Но где Гугл и где продукт? Пока это демо и папира, которые (возможно) когда-то зайдут в Google Photo и новые версии Pixel.
А теперь поворчу. Вы помните какой был прогресс в 2022 году от кринжовых версий Disco Diffusion до летних сенсаций от Stable Diffusion и Midjourney и DALLE-2?
Прогресс в видеогенераторах медленный. Видео - оно само по себе сложное. Там не просто пиксели бегают по картинке, там шевелятся десятки сущностей: персонажи, фоны, освещение, тени, фокусное расстояние, текстуры и еще много всего. Разметить картинку и разметить видео - немного разные задачи. Описать движение? Попробуйте сами двух словах. Промпты должны быть величиной с дом для попадания в замысел сам себе режиссера.
Поэтому, как я уже давно ворчу, рассказывание историй - за горами. А вот реклама, моушен, клипы, музыкальное видео и любой настроенческий видео-ряд - это прям новая поляна для генеративного видео. Тик-ток ждет этого добра.
И пример с паровозом мне приглянулся своими мамкиными спец-эффектами. На поляне симуляций (вода, огонь, взрывы и вот это вот все) это быстрое пришпандоривание эффектов может очень хорошо зайти в контент для соц-сетей и даже телика и новостей. И тут Адобченко точно может развернуться.
На итоге: я ожидал от Гугла в разы большего. Кто как не Гугл является держателем самого огромного (полуразмеченного) датасета с видео.
Жду ответочки от Адобченко.
https://lumiere-video.github.io/
Источник: Метаверсище и ИИще
2024-01-24 17:33:00