VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis. А...

VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

А вот это уже интересно.
И тут как раз тот случай, когда большие мальчики типа Гугла, насмотревшись на игры стартапчиков типа HeyGen или D-ID, решают выйти поиграть в песочницу. Со своим совочком для денег.

Да, выглядим по качеству очень драфтово и размыто, но представьте, что по этому можно пройтись апскелерами и хайрезфиксами.

Здесь есть несколько моментов.

Все это по одной фотке.

Не требуется дообучение для каждого персонажа в отдельности.

Это не поиск лица по лендмаркам, обрезка и дипфейк, это целиковая генерация с нуля.

Это не только лицо, но и тело(!).

Это УПРАВЛЯЕМЫЕ жесты.

Пальцы! Как?

В общем, тут точно надо наливать, и не раз, в полной тишине за Влогеров и всех этих ацких ютюберов. Теперь все это безобразие может рассказывать ИИ в любых обличиях.

Обязательно поглядите примеры вот тут:
https://enriccorona.github.io/vlogger/

Я правда очень боюсь, что Гугл это, как обычно, оставит в закрытых проектах. Выглядит хоть и мутно, но круто.

Источник: Метаверсище и ИИще

2024-03-14 12:06:32