Нейролента - подборка новостей о нейронных сетях, ChatGPT

На поляне text-to-video становится жарко

На поляне text-to-video становится жарко. Батя пришел.

У кого больше всех видео для тренировки и парочка LLM в кустах?
Правильно у Гугла.

Вот и держите Видео-Поэта, заявку на участие в этой гонке.

И там очень много новых фич, которых нет у конкурентов.

1. Длинные видео.

По умолчанию VideoPoet выводит 2-секундные видеоролики. Но модель также способна генерировать длинное видео, предсказывая 1 секунду выходного видео при вводе 1-секундного видеоклипа. Этот процесс можно повторять бесконечно для создания видео любой продолжительности. Несмотря на короткий входной контекст, модель демонстрирует сильное сохранение идентичности объекта, примеры на сайте. И в шапке поста.

2. Озвучка. Генерация звука из видео.
В описании акцентированно, что все модальности загоняются в токены и поэтому модель может преобразовывать текст, аудио и видео друг в друга.

3. Преобразование текста в видео.
Это понятно. Смотрим примеры.

4. Inpaint и Outpaint. Все как у людей.

5. Редактирование видео с помощью "анимации" промптов.
Тут опять упор на сторителлинг.

6. Анимация изображений на входе.
Все как у людей. Зевающая Мона Лиза там смешная, да.

7. Ловкая стилизация видео. И вот тут интересные примеры - в отличие от дифузионных решений на базе Stable Diffusion тут все довольно гладко.

8. Очень интересные примеры редактирования уже готовых видео.

Ну и самое главное, тут ничего не кипит!

В шапке пример ИИ-сторителлинга: для сценария Бард написал серию промптов, чтобы детализировать рассказ о путешествующем еноте. Затем сгенерировали видеоклипы для каждого промпта и соединили все полученные клипы для получения окончательного видео.

Ну то есть получается не просто генерация клипов, а замах на рассказывание историй. Написанных вами или вашим другом ИИ.

Обязательно поглядите сюда:
https://sites.research.google/videopoet/

Ну и кстати, от вертикальные видосы тоже делает, специально для тиктока.

P.S. Все эти ацкие еноты, конечно, разные и неконсистентные. Но амбиции Гугла на сторителлинг и анимацию со спецэффектами возбуждают.