⏶4
解耦身份,协同情感:关联感知的情感口播肖像生成
发表
由
Chengming Xu 提交
作者: Weipeng Tan, Chuming Lin,
Chengming Xu, FeiFan Xu, Xiaobin Hu, Xiaozhong Ji, Junwei Zhu, Chengjie Wang, Yanwei Fu
摘要
最近,说话人脸生成 (THG) 领域的进展利用扩散模型实现了令人印象深刻的口型同步和视觉质量;然而,现有方法在生成具有情感表现力的肖像时,难以同时保持说话人身份。我们在当前情感说话人脸生成中发现了三个关键限制:音频固有情感线索的利用不足、情感表示中的身份信息泄露以及情感关联性的孤立学习。为了解决这些挑战,我们提出了一个名为 DICE-Talk 的新颖框架,其核心思想是解耦身份与情感,然后协同具有相似特征的情感。首先,我们开发了一个解耦情感嵌入器,通过跨模态注意力联合建模视听情感线索,并将情感表示为身份无关的高斯分布。其次,我们引入了一个关联性增强的情感条件化模块,该模块包含可学习的情感库,通过向量量化和基于注意力的特征聚合显式捕获情感间关系。第三,我们设计了一个情感判别目标,通过潜在空间分类在扩散过程中确保情感一致性。在 MEAD 和 HDTF 数据集上的广泛实验证明了我们方法的优越性,在情感准确性方面超越了最先进的方法,同时保持了有竞争力的口型同步性能。定性结果和用户研究进一步证实了我们的方法能够生成保持身份信息的肖像,这些肖像具有丰富且相互关联的情感表达,并且能够自然地适应未见过的身份。
我们提出一种名为 DICE-Talk 的新颖范式,该范式作为一个新框架,用于生成具有生动且身份保持的情感表达的说话人脸视频。