KeySync:一种用于高分辨率无泄漏唇形同步的鲁棒方法

发表
Antoni BigataAntoni Bigata 提交
作者: Antoni BigataAntoni Bigata, Rodrigo Mira, Stella BounareliStella Bounareli, Michał Stypułkowski, Konstantinos Vougioukas, Stavros Petridis, Maja Pantic

摘要

唇语同步,即将现有视频中的唇部动作与新的输入音频对齐的任务,通常被视为音频驱动面部动画的一种更简单的变体。然而,除了面临头部说话人生成中的常见问题(例如时间一致性)外,唇语同步还提出了重大新挑战,如输入视频的表情泄露和面部遮挡,这些问题会严重影响自动配音等现实应用,但在现有工作中常常被忽视。为了解决这些不足,我们提出了 KeySync,一个两阶段框架,成功解决了时间一致性问题,同时通过精心设计的掩码策略解决了表情泄露和遮挡问题。我们展示了 KeySync 在唇部重建和跨同步方面取得了最先进的结果,提高了视觉质量并根据我们的新泄露度量 LipLeak 减少了表情泄露。此外,我们通过多项消融研究证明了我们新掩码方法在处理遮挡方面的有效性,并验证了我们的架构选择。代码和模型权重可在 https://antonibigata.github.io/KeySync 获取。
查看 arXiv 页面查看 PDF

评论

Antoni BigataAntoni Bigata
论文作者
论文提交者

论文主页(代码、权重、演示):https://antonibigata.github.io/KeySync/

Antonius RioAntonius Rio

IMG_20250418_052333.jpg

Antonius RioAntonius Rio

您好,我是一名网络安全人员。目前我正在就如何预防各种类型的网络攻击进行教育,例如 Android 网站应用程序和 API。

Shivendrasinh PatankarShivendrasinh Patankar

有趣,能分享更多细节吗?我是一个狂热的网络安全爱好者。

Shivendrasinh PatankarShivendrasinh Patankar

你们如何进行这项工作的营销?