⏶13
KeySync:一种用于高分辨率无泄漏唇形同步的鲁棒方法
发表
由
Antoni Bigata 提交
作者:
Antoni Bigata, Rodrigo Mira,
Stella Bounareli, Michał Stypułkowski, Konstantinos Vougioukas, Stavros Petridis, Maja Pantic
摘要
唇语同步,即将现有视频中的唇部动作与新的输入音频对齐的任务,通常被视为音频驱动面部动画的一种更简单的变体。然而,除了面临头部说话人生成中的常见问题(例如时间一致性)外,唇语同步还提出了重大新挑战,如输入视频的表情泄露和面部遮挡,这些问题会严重影响自动配音等现实应用,但在现有工作中常常被忽视。为了解决这些不足,我们提出了 KeySync,一个两阶段框架,成功解决了时间一致性问题,同时通过精心设计的掩码策略解决了表情泄露和遮挡问题。我们展示了 KeySync 在唇部重建和跨同步方面取得了最先进的结果,提高了视觉质量并根据我们的新泄露度量 LipLeak 减少了表情泄露。此外,我们通过多项消融研究证明了我们新掩码方法在处理遮挡方面的有效性,并验证了我们的架构选择。代码和模型权重可在 https://antonibigata.github.io/KeySync 获取。
论文主页(代码、权重、演示):https://antonibigata.github.io/KeySync/