⏶10
FantasyTalking2:用于音频驱动肖像动画的Timestep-Layer自适应偏好优化
发表
由
wangqiang 提交

作者: MengChao Wang,
Qiang Wang, Fan Jiang, Mu Xu

摘要
近期音频驱动的肖像动画取得了显著进展。然而,现有方法难以在多维度上与人类的细粒度偏好保持一致,例如动作自然度、唇形同步准确性和视觉质量。这归因于难以在相互冲突的偏好目标之间进行优化,以及缺乏带有多维度偏好标注的大规模高质量数据集。为解决这些问题,我们首先引入了 Talking-Critic,这是一种多模态奖励模型,它学习与人类对齐的奖励函数,以量化生成视频满足多维度期望的程度。利用该模型,我们整理了 Talking-NSQ,这是一个包含 410K 偏好对的大规模多维度人类偏好数据集。最后,我们提出了 Timestep-Layer 自适应多专家偏好优化(TLPO),这是一种新颖的框架,用于将基于扩散的肖像动画模型与细粒度、多维度偏好对齐。TLPO 将偏好解耦为专业的专家模块,然后这些模块在时间步和网络层之间融合,从而在不相互干扰的情况下,在所有维度上实现全面、细粒度的增强。实验表明,Talking-Critic 在与人类偏好评分对齐方面显著优于现有方法。同时,TLPO 在唇形同步准确性、动作自然度和视觉质量方面,比基线模型取得了显著改进,在定性和定量评估中均表现出卓越的性能。我们的项目页面:https://fantasy-amap.github.io/fantasy-talking2/
音频驱动肖像动画的最新进展展示了令人印象深刻的能力。然而,现有方法难以在多个维度上与细粒度的人类偏好对齐,例如动作自然度、唇形同步准确性和视觉质量。这归因于在相互冲突的偏好目标之间进行优化的困难,以及缺乏大规模、高质量且具有多维偏好标注的数据集。为了解决这些问题,我们首先引入了 Talking-Critic,一个多模态奖励模型,它学习与人类对齐的奖励函数,以量化生成视频满足多维期望的程度。利用这个模型,我们构建了 Talking-NSQ,一个包含 41 万个偏好对的大规模多维人类偏好数据集。最后,我们提出了 Timestep-Layer adaptive multi-expert Preference Optimization (TLPO),一个用于将基于扩散的肖像动画模型与细粒度、多维偏好对齐的新颖框架。TLPO 将偏好解耦为专业的专家模块,然后这些模块在时间步和网络层之间融合,从而在所有维度上实现全面、细粒度的增强,而不会相互干扰。实验表明,Talking-Critic 在与人类偏好评分对齐方面显著优于现有方法。同时,TLPO 在唇形同步准确度、动作自然度和视觉质量方面,比基线模型取得了实质性改进,在定性和定量评估中都表现出卓越的性能。我们的项目页面:https://fantasy-amap.github.io/fantasy-talking2/