Нейролента - подборка новостей о нейронных сетях, ChatGPT

Я внимательно слежу за всеми нейромокапами, ибо вся...

Я внимательно слежу за всеми нейромокапами, ибо вся эта анимация в Stable Diffusion-подобных решениях, как правило, опирается на "внешний источник движения" и мокап костюм 99% контент-мейкеров точно не могут себе позволить.

Вот свежая работа от института Макса Планка.
Для тех гиков, кто в теме (привет Слава См.) приведу описание без купюр:

Во-первых, большинство методов оценивают человека в координатах камеры.

Во-вторых, предыдущие работы по оценке человека в глобальных координатах часто предполагают плоскую поверхность пола и приводят к скольжению ног.

В-третьих, наиболее точные методы опираются на дорогостоящие вычислительные конвейеры оптимизации, что ограничивает их использование автономными приложениями.

Наконец, существующие методы, основанные на видео, на удивление менее точны, чем методы, основанные на одном кадре.

Мы решаем эти проблемы с помощью WHAM (World-grounded Humans with Accurate Motion), который точно и эффективно восстанавливает 3D-движение человека в глобальной системе координат на основе видео. WHAM учится переводить 2D-последовательности ключевых точек в 3D, используя данные захвата движения, и объединяет их с особенностями видео, интегрируя контекст движения и визуальную информацию. WHAM использует угловую скорость камеры, оцененную по методу SLAM, вместе с движением человека для оценки глобальной траектории тела. Мы сочетаем это с методом уточнения траектории с учетом контакта, который позволяет WHAM захватывать движения человека в различных условиях, например, при подъеме по лестнице. WHAM превосходит все существующие методы восстановления 3D-движения человека в различных тестах.

Подробности и хорошее видео тут:

https://wham.is.tue.mpg.de/

И код тоже будет!