快速适应新的语音欺骗:在分布变化下合成语音的少样本检测

发表
Ashi GargAshi Garg 提交
作者: Ashi GargAshi Garg, Zexin Cai, Henry Li Xinyuan, Leibny Paola García-Perera, Kevin Duh, Sanjeev Khudanpur, Matthew Wiesner, Nicholas Andrews

摘要

我们解决了在分布变化下检测合成语音的挑战——这些变化源于训练数据中未见的合成方法、说话人、语言或音频条件。少样本学习方法通过在少量分布内样本的基础上快速适应,是一种解决分布变化的有前途的方法。我们提出了一种自注意力原型网络,以实现更鲁棒的少样本适应。为了评估我们的方法,我们系统地比较了传统零样本检测器和我们提出的少样本检测器的性能,在评估时仔细控制训练条件以引入分布变化。在分布变化会阻碍零样本性能的条件下,我们提出的少样本适应技术可以使用少至 10 个分布内样本进行快速适应——在日语深度伪造上的相对 EER 降低高达 32%,在 ASVspoof 2021 Deepfake 数据集上的相对降低为 20%。
查看 arXiv 页面查看 PDF

评论

Ashi GargAshi Garg
论文作者
论文提交者

我们解决了在分布变化(相对于训练数据,表现为未见过的合成方法、说话人、语言或音频条件)下检测合成语音的挑战。少样本学习方法是通过少量分布内样本快速适应来应对分布变化的有希望的方法。我们提出了一种自注意力原型网络,以实现更鲁棒的少样本适应。为了评估我们的方法,我们系统地比较了传统零样本检测器和我们提出的少样本检测器的性能,在评估时仔细控制训练条件以引入分布变化。在分布变化会阻碍零样本性能的情况下,我们提出的少样本适应技术可以使用少至 10 个分布内样本快速适应——在日语深度伪造上实现了高达 32% 的相对 EER 降低,在 ASVspoof 2021 Deepfake 数据集上实现了 20% 的相对降低。