UniEgoMotion:一个用于自我中心运动重建、预测和生成的统一模型

发表
Chaitanya PatelChaitanya Patel 提交
作者: Chaitanya PatelChaitanya Patel, Hiroki Nakamura, Yuta Kyuragi, Kazuki Kozuka, Juan Carlos Niebles, Ehsan Adeli

摘要

以自我为中心的人体运动生成和场景上下文预测对于增强 AR/VR 体验、改善人机交互、推进辅助技术以及通过准确预测和模拟第一人称视角运动来支持自适应医疗保健解决方案至关重要。然而,现有方法主要侧重于具有结构化 3D 场景上下文的第三人称运动合成,这限制了它们在真实世界以自我为中心的设置中的有效性,在这些设置中,有限的视野、频繁的遮挡和动态摄像头阻碍了场景感知。为了弥补这一差距,我们引入了以自我为中心的运动生成和以自我为中心的运动预测,这是两项利用第一人称图像进行场景感知运动合成而无需依赖显式 3D 场景的新任务。我们提出了 UniEgoMotion,一个统一的条件运动扩散模型,具有专门为以自我为中心的设备量身定制的新型以头部为中心的运动表示。UniEgoMotion 简单而有效的设计支持在统一框架中从第一人称视觉输入进行以自我为中心的运动重建、预测和生成。与忽略场景语义的先前工作不同,我们的模型有效地提取基于图像的场景上下文以推断合理的 3D 运动。为了方便训练,我们引入了 EE4D-Motion,一个源自 EgoExo4D 的大型数据集,并增加了伪真实 3D 运动注释。UniEgoMotion 在以自我为中心的运动重建方面取得了最先进的性能,并且是第一个从单个以自我为中心的图像生成运动的模型。广泛的评估证明了我们统一框架的有效性,为以自我为中心的运动建模设定了新的基准,并为以自我为中心的应用程序开辟了新的可能性。
查看 arXiv 页面查看 PDF

评论

Chaitanya PatelChaitanya Patel
论文作者
论文提交者

UniEgoMotion:一个用于自我中心运动重建、预测和生成的统一模型

teaser2.png