SViMo:手物交互场景中视频与动作生成的同步扩散

发表
levon danglevon dang 提交
作者: levon dangLingwei Dang, Ruizhi Shao, Hongwen Zhang, Wei Min, Yebin Liu, Qingyao Wu

摘要

手物交互(HOI)生成具有重要的应用潜力。然而,当前的三维手物交互运动生成方法严重依赖预定义的三维物体模型和实验室捕获的运动数据,从而限制了其泛化能力。同时,手物交互视频生成方法优先考虑像素级的视觉保真度,却常常牺牲物理合理性。认识到现实世界中视觉外观和运动模式共享基本物理定律,我们提出了一种新颖的框架,该框架在一个同步扩散过程中结合了视觉先验和动态约束,以同时生成手物交互视频和运动。为了整合异构的语义、外观和运动特征,我们的方法实现了三模态自适应调制以进行特征对齐,并结合三维全注意力机制来建模模态间和模态内的依赖关系。此外,我们引入了一个视觉感知三维交互扩散模型,该模型直接从同步扩散输出中生成明确的三维交互序列,然后将其反馈以建立一个闭环反馈循环。这种架构消除了对预定义物体模型或明确姿态指导的依赖,同时显著增强了视频与运动的一致性。实验结果表明,我们的方法在生成高保真、动态合理的手物交互序列方面优于最先进的方法,并在未见的真实世界场景中展现出显著的泛化能力。项目页面:https://github.com/Droliven/SViMo_project
查看 arXiv 页面查看 PDF

评论

levon danglevon dang
论文作者
论文提交者
levon danglevon dang
论文作者
论文提交者