Uni3C:统一精确地三维增强型相机和人体运动控制,用于视频生成

发表
chenjie caochenjie cao 提交
作者: chenjie caoChenjie Cao, Jingkai ZhouJingkai Zhou, Shikai Li, Jingyun Liang, Chaohui Yu, Fan Wang, Xiangyang Xue, YANWEIYanwei Fu

摘要

相机和人体运动控制已被广泛研究用于视频生成,但现有方法通常将两者分开处理,并受限于缺乏针对这两方面的高质量标注数据。为了克服这个问题,我们提出了 Uni3C,一个统一的 3D 增强框架,用于精确控制视频生成中的相机和人体运动。Uni3C 包括两个主要贡献。首先,我们提出了一个即插即用控制模块 PCDController,它与冻结的视频生成骨干网络一起训练,并利用来自单目深度的反投影点云来实现精确的相机控制。通过利用点云强大的 3D 先验知识和视频基础模型的强大能力,PCDController 展示了令人印象深刻的泛化能力,无论推理骨干网络是冻结的还是微调的,都表现良好。这种灵活性使得 Uni3C 的不同模块能够在特定领域进行训练,即相机控制或人体运动控制,从而减少对联合标注数据的依赖。其次,我们为推理阶段提出了一个联合对齐的 3D 世界引导,它无缝集成了场景点云和 SMPL-X 人物模型,以分别统一相机和人体运动的控制信号。大量实验证实,PCDController 在驱动视频生成的微调骨干网络的相机运动方面具有很强的鲁棒性。Uni3C 在相机可控性和人体运动质量方面均大幅优于竞争对手。此外,我们收集了定制的验证集,其中包含具有挑战性的相机运动和人体动作,以验证我们方法的有效性。
查看 arXiv 页面查看 PDF

评论

chenjie caochenjie cao
论文作者
论文提交者
此评论已隐藏。