Алибаба продолжает жечь
Алибаба продолжает жечь.
Если вы зайдете на https://github.com/damo-vilab/i2vgen-xl - генератор видео, о котором я писал вчера, то шуруйте ниже в раздел News. Там они поливают решениями на основе своей генеративной видео-модели.
В частности держите DreamTalk
https://dreamtalk-project.github.io/
DreamTalk состоит из трех компонентов: денойзер, ЛИПСИНК(!), учитывающий стиль, и предсказатель стиля.
"Чтобы повысить выразительность и точность движений губ, мы вводим эксперта по губам, учитывающего стили, который может управлять синхронизацией губ с учетом стилей речи. Чтобы избавиться от необходимости использовать видео или текст с выражением лица, используется дополнительный предиктор стиля на основе диффузии, который предсказывает целевое выражение непосредственно из аудио."
Для нормисов: на входе аудио - на выходе говорящая, поющая, орущая башка. В любом описанном или показанном вами стиле. D-ID сейчас в который раз нервно закуривает (но у них есть продукт, а у китайцев только видосики).
Ссылка на код пока ведет на репозитарий i2vgen-xl.
Говорящие головы - одна из самых горячих тем. Очень интересно будет посмотреть, как этот код будут прикручивать к новым нормальным ассистентам.
Очень много примеров тут:
https://dreamtalk-project.github.io/
Если вы зайдете на https://github.com/damo-vilab/i2vgen-xl - генератор видео, о котором я писал вчера, то шуруйте ниже в раздел News. Там они поливают решениями на основе своей генеративной видео-модели.
В частности держите DreamTalk
https://dreamtalk-project.github.io/
DreamTalk состоит из трех компонентов: денойзер, ЛИПСИНК(!), учитывающий стиль, и предсказатель стиля.
"Чтобы повысить выразительность и точность движений губ, мы вводим эксперта по губам, учитывающего стили, который может управлять синхронизацией губ с учетом стилей речи. Чтобы избавиться от необходимости использовать видео или текст с выражением лица, используется дополнительный предиктор стиля на основе диффузии, который предсказывает целевое выражение непосредственно из аудио."
Для нормисов: на входе аудио - на выходе говорящая, поющая, орущая башка. В любом описанном или показанном вами стиле. D-ID сейчас в который раз нервно закуривает (но у них есть продукт, а у китайцев только видосики).
Ссылка на код пока ведет на репозитарий i2vgen-xl.
Говорящие головы - одна из самых горячих тем. Очень интересно будет посмотреть, как этот код будут прикручивать к новым нормальным ассистентам.
Очень много примеров тут:
https://dreamtalk-project.github.io/
Источник: Метаверсище и ИИще
2023-12-19 12:04:48