На поляне text-to-video становится жарко
На поляне text-to-video становится жарко. Батя пришел.
У кого больше всех видео для тренировки и парочка LLM в кустах?
Правильно у Гугла.
Вот и держите Видео-Поэта, заявку на участие в этой гонке.
И там очень много новых фич, которых нет у конкурентов.
1. Длинные видео.
По умолчанию VideoPoet выводит 2-секундные видеоролики. Но модель также способна генерировать длинное видео, предсказывая 1 секунду выходного видео при вводе 1-секундного видеоклипа. Этот процесс можно повторять бесконечно для создания видео любой продолжительности. Несмотря на короткий входной контекст, модель демонстрирует сильное сохранение идентичности объекта, примеры на сайте. И в шапке поста.
2. Озвучка. Генерация звука из видео.
В описании акцентированно, что все модальности загоняются в токены и поэтому модель может преобразовывать текст, аудио и видео друг в друга.
3. Преобразование текста в видео.
Это понятно. Смотрим примеры.
4. Inpaint и Outpaint. Все как у людей.
5. Редактирование видео с помощью "анимации" промптов.
Тут опять упор на сторителлинг.
6. Анимация изображений на входе.
Все как у людей. Зевающая Мона Лиза там смешная, да.
7. Ловкая стилизация видео. И вот тут интересные примеры - в отличие от дифузионных решений на базе Stable Diffusion тут все довольно гладко.
8. Очень интересные примеры редактирования уже готовых видео.
Ну и самое главное, тут ничего не кипит!
В шапке пример ИИ-сторителлинга: для сценария Бард написал серию промптов, чтобы детализировать рассказ о путешествующем еноте. Затем сгенерировали видеоклипы для каждого промпта и соединили все полученные клипы для получения окончательного видео.
Ну то есть получается не просто генерация клипов, а замах на рассказывание историй. Написанных вами или вашим другом ИИ.
Обязательно поглядите сюда:
https://sites.research.google/videopoet/
Ну и кстати, от вертикальные видосы тоже делает, специально для тиктока.
P.S. Все эти ацкие еноты, конечно, разные и неконсистентные. Но амбиции Гугла на сторителлинг и анимацию со спецэффектами возбуждают.
У кого больше всех видео для тренировки и парочка LLM в кустах?
Правильно у Гугла.
Вот и держите Видео-Поэта, заявку на участие в этой гонке.
И там очень много новых фич, которых нет у конкурентов.
1. Длинные видео.
По умолчанию VideoPoet выводит 2-секундные видеоролики. Но модель также способна генерировать длинное видео, предсказывая 1 секунду выходного видео при вводе 1-секундного видеоклипа. Этот процесс можно повторять бесконечно для создания видео любой продолжительности. Несмотря на короткий входной контекст, модель демонстрирует сильное сохранение идентичности объекта, примеры на сайте. И в шапке поста.
2. Озвучка. Генерация звука из видео.
В описании акцентированно, что все модальности загоняются в токены и поэтому модель может преобразовывать текст, аудио и видео друг в друга.
3. Преобразование текста в видео.
Это понятно. Смотрим примеры.
4. Inpaint и Outpaint. Все как у людей.
5. Редактирование видео с помощью "анимации" промптов.
Тут опять упор на сторителлинг.
6. Анимация изображений на входе.
Все как у людей. Зевающая Мона Лиза там смешная, да.
7. Ловкая стилизация видео. И вот тут интересные примеры - в отличие от дифузионных решений на базе Stable Diffusion тут все довольно гладко.
8. Очень интересные примеры редактирования уже готовых видео.
Ну и самое главное, тут ничего не кипит!
В шапке пример ИИ-сторителлинга: для сценария Бард написал серию промптов, чтобы детализировать рассказ о путешествующем еноте. Затем сгенерировали видеоклипы для каждого промпта и соединили все полученные клипы для получения окончательного видео.
Ну то есть получается не просто генерация клипов, а замах на рассказывание историй. Написанных вами или вашим другом ИИ.
Обязательно поглядите сюда:
https://sites.research.google/videopoet/
Ну и кстати, от вертикальные видосы тоже делает, специально для тиктока.
P.S. Все эти ацкие еноты, конечно, разные и неконсистентные. Но амбиции Гугла на сторителлинг и анимацию со спецэффектами возбуждают.
Источник: Метаверсище и ИИще
2023-12-20 14:23:23