Алибаба продолжает жечь

Алибаба продолжает жечь.
Если вы зайдете на https://github.com/damo-vilab/i2vgen-xl - генератор видео, о котором я писал вчера, то шуруйте ниже в раздел News. Там они поливают решениями на основе своей генеративной видео-модели.

В частности держите DreamTalk
https://dreamtalk-project.github.io/

DreamTalk состоит из трех компонентов: денойзер, ЛИПСИНК(!), учитывающий стиль, и предсказатель стиля.

"Чтобы повысить выразительность и точность движений губ, мы вводим эксперта по губам, учитывающего стили, который может управлять синхронизацией губ с учетом стилей речи. Чтобы избавиться от необходимости использовать видео или текст с выражением лица, используется дополнительный предиктор стиля на основе диффузии, который предсказывает целевое выражение непосредственно из аудио."

Для нормисов: на входе аудио - на выходе говорящая, поющая, орущая башка. В любом описанном или показанном вами стиле. D-ID сейчас в который раз нервно закуривает (но у них есть продукт, а у китайцев только видосики).

Ссылка на код пока ведет на репозитарий i2vgen-xl.

Говорящие головы - одна из самых горячих тем. Очень интересно будет посмотреть, как этот код будут прикручивать к новым нормальным ассистентам.

Очень много примеров тут:
https://dreamtalk-project.github.io/

Источник: Метаверсище и ИИще

2023-12-19 12:04:48