RealisDance-DiT:迈向实际环境中可控角色动画的简单而强大基线

发表
Jingkai ZhouJingkai Zhou 提交
作者: Jingkai Zhou, Yifan Wu, Shikai Li, Min Wei, Chao Fan, Weihua Chen, Wei Jiang, Fan Wang

摘要

可控的角色动画仍然是一个具有挑战性的问题,特别是在处理罕见姿势、风格化角色、角色与物体的互动、复杂照明和动态场景方面。为了解决这些问题,之前的工作主要集中于通过精心设计的旁路网络注入姿势和外观引导,但通常难以泛化到开放世界场景。在本文中,我们提出了一种新的视角:只要基础模型足够强大,通过简单的模型修改和灵活的微调策略就可以在很大程度上解决上述挑战,从而朝着野外可控角色动画迈进。具体来说,我们在 Wan-2.1 视频基础模型的基础上构建了 RealisDance-DiT。我们充分的分析表明,广泛采用的 Reference Net 设计对于大型 DiT 模型来说是次优的。相反,我们证明对基础模型架构进行最小的修改就能产生令人惊讶的强大基线。我们进一步提出了低噪声热身和“大批量小迭代”策略,以在微调过程中加速模型收敛,同时最大限度地保留基础模型的先验知识。此外,我们引入了一个新的测试数据集,捕捉了多样的真实世界挑战,补充了现有基准(如 TikTok 数据集和 UBC 时尚视频数据集),以全面评估所提出的方法。大量实验表明,RealisDance-DiT 大幅优于现有方法。
查看 arXiv 页面查看 PDF

评论

Jingkai ZhouJingkai Zhou
论文提交者

RealisDance-DiT 的代码和检查点 (ckpts) 将稍后发布,因为我们尚未收到公司批准。