InterActHuman:带有布局对齐音频条件的多概念人体动画

发表
Zhenzhi WangZhenzhi Wang 提交
作者: Zhenzhi WangZhenzhi Wang, Jiaqi Yang, Jianwen Jiang, liangdebuggerChao Liang, Gaojie LinGaojie Lin, Zerong Zheng, Ceyuan Yang, Dahua Lin

摘要

近年来,通过文本、图像和音频等丰富的多模态条件进行端到端人体动画已取得了显著进展。然而,大多数现有方法只能对单个主体进行动画制作,并以全局方式注入条件,忽略了同一视频中可能出现多个概念,并伴随丰富人机交互和人物交互的场景。这种全局假设阻碍了对包括人类和物体在内的多个概念进行精确和按身份的控制,因此阻碍了应用。在这项工作中,我们放弃了单实体假设,并引入了一个新颖的框架,该框架强制执行模态条件与其每个身份的时空足迹之间强大的、区域特定的绑定。给定多个概念的参考图像,我们的方法可以通过利用掩码预测器,自动推断布局信息,以匹配去噪视频和每个参考外观之间的外观线索。此外,我们将局部音频条件注入到其对应的区域,以迭代方式确保布局对齐的模态匹配。这种设计实现了高质量、可控的多概念以人为中心的视频生成。实证结果和消融研究验证了我们的显式布局控制对多模态条件的有效性,优于隐式对应方法和其他现有方法。
查看 arXiv 页面查看 PDF

评论

Zhenzhi WangZhenzhi Wang
论文作者
论文提交者

演示视频可在 https://zhenzhiwang.github.io/interacthuman/ 观看