VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real...

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

Помните огненный липсинк EMO от Алибабищенко?
Держите ответочку от Микрософта.

На входе одна портретная фотография + аудио, на выходе - видео говорящего\поющего персонажа с липсинком, реалистичным поведением лица и натуралистичными движениями головы, создаваемыми в РЕАЛЬНОМ ВРЕМЕНИ.

Похоже тема липсинка скоро будет закрыта, а то wav2lip безнадежно устарел.

Смотрите примеры в твитторе:
https://twitter.com/minchoi/status/1780792793079632130

А также на сайте самого проекта:
https://www.microsoft.com/en-us/research/project/vasa-1/

Кода, конечно, нет, только бумага.

Источник: Метаверсище и ИИще

2024-04-18 09:19:44