FantasyPortrait: 通过表情增强的扩散Transformer增强多人物肖像动画

发表
wangqiangwangqiang 提交
作者: wangqiangQiang Wang, Mengchao Wang, Fan Jiang, Yaqi Fan, Yonggang Qi, Mu Xu

摘要

从静态图像生成富有表现力的面部动画是一项具有挑战性的任务。以往依赖显式几何先验(例如面部标志或 3DMM)的方法在交叉重演中经常出现伪影,并且难以捕捉细微的情绪。此外,现有方法缺乏对多角色动画的支持,因为来自不同个体的驱动特征经常相互干扰,从而使任务复杂化。为了解决这些挑战,我们提出了 FantasyPortrait,一个基于扩散Transformer的框架,能够为单角色和多角色场景生成高保真、情感丰富的动画。我们的方法引入了一种表情增强学习策略,该策略利用隐式表示来捕获与身份无关的面部动态,从而增强模型渲染细微情感的能力。对于多角色控制,我们设计了一种遮蔽交叉注意力机制,该机制可确保独立而协调的表情生成,有效防止特征干扰。为了推进该领域的研究,我们提出了 Multi-Expr 数据集和 ExprBench,这些是专门为训练和评估多角色肖像动画而设计的数据集和基准。广泛的实验表明,FantasyPortrait 在定量指标和定性评估方面都显著优于最先进的方法,尤其在具有挑战性的交叉重演和多角色场景中表现出色。我们的项目页面是 https://fantasy-amap.github.io/fantasy-portrait/
查看 arXiv 页面查看 PDF

评论

wangqiangwangqiang
论文作者
论文提交者

从静态图像生成富有表现力的面部动画是一项具有挑战性的任务。以往依赖显式几何先验(例如,面部地标或 3DMM)的方法通常在交叉重演中出现伪影,并且难以捕捉细微情感。此外,现有方法缺乏对多角色动画的支持,因为来自不同个体的驱动特征经常相互干扰,使任务复杂化。为解决这些挑战,我们提出了 FantasyPortrait,一个基于扩散变换器的框架,能够为单角色和多角色场景生成高保真、情感丰富的动画。我们的方法引入了一种表达增强学习策略,利用隐式表示来捕获与身份无关的面部动态,增强了模型渲染精细情感的能力。对于多角色控制,我们设计了一种掩码交叉注意力机制,确保独立而协调的表情生成,有效防止特征干扰。为了推进该领域的研究,我们提出了 Multi-Expr 数据集和 ExprBench,它们是专门为训练和评估多角色肖像动画而设计的数据集和基准。大量实验表明,FantasyPortrait 在定量指标和定性评估方面均显著优于现有最新方法,尤其在具有挑战性的交叉重演和多角色情境中表现出色。主页:https://fantasy-amap.github.io/fantasy-portrait/