FantasyTalking:通过连贯运动合成生成逼真的会说话的人像

04月07日发表
04月10日由 wangqiangwangqiang 提交
作者: Mengchao Wang, wangqiangQiang Wang, fanjiangFan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu

摘要

从单张静态肖像创建逼真的可动画化身仍然具有挑战性。现有方法通常难以捕捉微妙的面部表情、相关的全身运动和动态背景。为了解决这些局限性,我们提出了一个新颖的框架,该框架利用预训练的视频扩散 Transformer 模型来生成具有可控运动动态的高保真、连贯的会说话肖像。我们工作的核心是双阶段视听对齐策略。在第一阶段,我们采用片段级训练方案,通过对齐整个场景(包括参考肖像、上下文对象和背景)中音频驱动的动态来建立连贯的全局运动。在第二阶段,我们使用唇部追踪掩码在帧级别细化唇部运动,确保与音频信号的精确同步。为了在不影响运动灵活性的情况下保持身份,我们用一个以面部为中心的交叉注意力模块取代了常用的参考网络,该模块有效地保持了整个视频中的面部一致性。此外,我们集成了一个运动强度调制模块,该模块显式控制表情和身体运动强度,从而能够对肖像运动进行超出单纯唇部运动的可控操作。广泛的实验结果表明,我们提出的方法实现了更高的质量,具有更好的真实感、连贯性、运动强度和身份保持。我们的项目页面:https://fantasy-amap.github.io/fantasy-talking/
查看 arXiv 页面查看 PDF

评论

wangqiangwangqiang
论文作者
论文提交者

从单张静态肖像创建逼真的可动画化身仍然具有挑战性。现有方法通常难以捕捉细微的面部表情、相关的全身运动和动态背景。为了解决这些局限性,我们提出了一个新的框架,该框架利用预训练的视频扩散 Transformer 模型来生成具有可控运动动态的高保真、连贯的说话肖像。我们工作的核心是双阶段音视频对齐策略。在第一阶段,我们采用片段级训练方案,通过对齐整个场景(包括参考肖像、上下文对象和背景)的音频驱动动态来建立连贯的全局运动。在第二阶段,我们使用唇部追踪蒙版在帧级别细化唇部运动,确保与音频信号的精确同步。为了在不影响运动灵活性的情况下保持身份,我们用一个以面部为中心的交叉注意力模块替换了常用的参考网络,该模块有效地保持了整个视频中的面部一致性。此外,我们集成了一个运动强度调制模块,可以显式控制表情和身体运动强度,从而实现对肖像运动的可控操作,而不仅仅是唇部运动。大量的实验结果表明,我们提出的方法在更高的质量下实现了更好的真实感、连贯性、运动强度和身份保持。我们的项目页面: 此链接。

AndreiAndrei

84685518-ef7d-4185-9e74-1aa8b58f878b.png