Нейролента - подборка новостей о нейронных сетях, ChatGPT

Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation. Моушн-дизайнерам...

Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation

Моушн-дизайнерам на заметку!

Все, кто пытался стилизовать видео по текстовому запросу с помощью SD + ControlNet знают, что результат такой генерации начинает прыгать как собака, потому что каждый кадр обрабатывается независимо.

В этой статье эту проблемку частично решают. Решение не научное, а скорее инженерное и не требует перетренировки сеток. Предлагают стилизовать ключевые кадры, причем для достижения консистентности по стилю, пробрасывают cross-attention между ключевыми кадрами. Как я понял, сначала стилизуют один ключевой кадр, а потом используют его как контекст во время стилизации всех других.

Затем авторы пропагируют информацию от ключевых кадров к тем, что между ними. Тут для консистентности формы, текстур и цвета используются трюки в latent пространстве LDM: AdaIN для цвета, ворпинг кадров друг на друга (используя optical flow) для формы.

Подробности в статье.
Результаты на сайте проекта просто🔥

@ai_newz