⏶1

SViMo：手物交互场景中视频与动作生成的同步扩散

06月03日发表

06月06日由 levon dang 提交

作者: Lingwei Dang, Ruizhi Shao, Hongwen Zhang, Wei Min, Yebin Liu, Qingyao Wu

摘要

手物交互（HOI）生成具有重要的应用潜力。然而，当前的三维手物交互运动生成方法严重依赖预定义的三维物体模型和实验室捕获的运动数据，从而限制了其泛化能力。同时，手物交互视频生成方法优先考虑像素级的视觉保真度，却常常牺牲物理合理性。认识到现实世界中视觉外观和运动模式共享基本物理定律，我们提出了一种新颖的框架，该框架在一个同步扩散过程中结合了视觉先验和动态约束，以同时生成手物交互视频和运动。为了整合异构的语义、外观和运动特征，我们的方法实现了三模态自适应调制以进行特征对齐，并结合三维全注意力机制来建模模态间和模态内的依赖关系。此外，我们引入了一个视觉感知三维交互扩散模型，该模型直接从同步扩散输出中生成明确的三维交互序列，然后将其反馈以建立一个闭环反馈循环。这种架构消除了对预定义物体模型或明确姿态指导的依赖，同时显著增强了视频与运动的一致性。实验结果表明，我们的方法在生成高保真、动态合理的手物交互序列方面优于最先进的方法，并在未见的真实世界场景中展现出显著的泛化能力。项目页面：https://github.com/Droliven/SViMo_project。

查看 arXiv 页面查看 PDF

levon dang

论文作者

论文提交者

要点：一种新颖的框架，在同步扩散过程中结合了视觉先验和动态约束，用于在手物交互 (HOI) 场景中联合生成视频和运动。
项目主页位于 https://github.com/Droliven/SViMo_project。
视频演示：https://www.youtube.com/watch?v=pVkntn-8KHo。

levon dang

论文作者

论文提交者

要点：一种新颖的框架，在同步扩散过程中结合了视觉先验和动态约束，用于在手物交互 (HOI) 场景中联合生成视频和运动。
项目主页位于 https://github.com/Droliven/SViMo_project。
视频演示：https://www.youtube.com/watch?v=pVkntn-8KHo。

SViMo：手物交互场景中视频与动作生成的同步扩散

摘要

评论