DanceTogether!:保留身份的多人交互式视频生成

发表
Dream How ChenDream How Chen 提交
作者: Dream How ChenJunhao Chen, Mingjin Chen, Jianjin Xu, Xiang Li, Junting Dong, Mingze Sun, Puhua Jiang, Hongxiang Li, Yuhang Yang, Hao Zhao, Xiaoxiao Long, Ruqi Huang

摘要

可控视频生成(CVG)已迅速发展,但当前系统在多个参与者必须在噪声控制信号下移动、互动和交换位置时就会出现问题。我们通过 DanceTogether 解决了这一空白,这是第一个端到端扩散框架,它将单个参考图像加上独立的姿势-遮罩流转换为长时间的逼真视频,同时严格保留每个角色的身份。一种新颖的 MaskPoseAdapter 在每个去噪步骤中通过融合鲁棒的跟踪遮罩与语义丰富但有噪声的姿势热图来绑定“谁”和“如何”,从而消除了困扰逐帧管道的身份漂移和外观混叠问题。为了进行大规模训练和评估,我们引入了 (i) PairFS-4K,包含 26 小时双人滑冰 footage,具有 7,000 多个不同的 ID;(ii) HumanRob-300,一个小时的人形机器人交互数据集,用于快速跨域迁移;以及 (iii) TogetherVideoBench,一个围绕 DanceTogEval-100 测试套件构建的三轨基准,涵盖舞蹈、拳击、摔跤、瑜伽和花样滑冰。在 TogetherVideoBench 上,DanceTogether 显著优于现有技术。此外,我们展示了仅一小时的微调就可以生成逼真的人机交互视频,强调了其对具身人工智能和人机交互任务的广泛泛化能力。广泛的消融实验证实,持续的身份-动作绑定对于这些提升至关重要。总而言之,我们的模型、数据集和基准将可控视频生成从单主题编排提升到可组合控制的多角色交互,为数字制作、仿真和具身智能开辟了新途径。我们的视频演示和代码可在 https://DanceTog.github.io/ 获取。
查看 arXiv 页面查看 PDF

评论

Dream How ChenDream How Chen
论文作者
论文提交者

DanceTogether! 身份保持的多人互动视频生成

https://cdn-uploads.huggingface.co/production/uploads/652b80d4703b3743c25c87d5/WZSsSmVlVoks2HfMAAyGR.mp4