SMPLer-X: Scaling Up Expressive Human Pose and Shape...
SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation
Китайци подвезли СОТУ по монокулярному Pose and Shape estimation. То есть по одному кадру предсказывается 3D поза и форма человека. Покадрово можо применить к любому видео-потоку.
Тут как всегда зарешал масштаб модели и данных. Взяли трансоформер ViT-H на 662M параметров и тренировали на 32 датасетах с 4.5М фреймов, что как бы тоже дохрена для этой задачи.
ViT-H по меркам современного CV не такой уж и большой, но больше чем, все что пробовали на задаче Shape&Pose Estimation до этого, да и довольно шустрый. Скорость инференса даже почти риалтаймовая получилась - 17.5 FPS на Nvidia V100.
Код и веса на гитхабе
Сайт проекта
Статья
Demo на HF
@ai_newz
Китайци подвезли СОТУ по монокулярному Pose and Shape estimation. То есть по одному кадру предсказывается 3D поза и форма человека. Покадрово можо применить к любому видео-потоку.
Тут как всегда зарешал масштаб модели и данных. Взяли трансоформер ViT-H на 662M параметров и тренировали на 32 датасетах с 4.5М фреймов, что как бы тоже дохрена для этой задачи.
ViT-H по меркам современного CV не такой уж и большой, но больше чем, все что пробовали на задаче Shape&Pose Estimation до этого, да и довольно шустрый. Скорость инференса даже почти риалтаймовая получилась - 17.5 FPS на Nvidia V100.
Код и веса на гитхабе
Сайт проекта
Статья
Demo на HF
@ai_newz
Источник: эйай ньюз
2024-03-06 13:48:46