⏶7
ZeroSep:零训练分离音频中的任意内容
发表
由
Chao Huang 提交
作者: Chao Huang, Yuesheng Ma, Junxuan Huang, Susan Liang, Yunlong Tang, Jing Bi, Wenqiang Liu, Nima Mesgarani, Chenliang Xu
摘要
音频源分离是机器理解复杂声学环境的基础,并支撑着众多音频应用。当前的有监督深度学习方法虽然强大,但受限于需要大量特定任务的标注数据,并且难以泛化到现实世界声学场景的巨大变异性和开放集性质。受生成基础模型成功的启发,我们研究了预训练的文本引导音频扩散模型是否能克服这些局限性。我们做出了一个令人惊讶的发现:在正确的配置下,仅通过预训练的文本引导音频扩散模型即可实现零样本源分离。我们的方法 ZeroSep 工作原理是将混合音频反转到扩散模型的潜在空间,然后利用文本条件引导去噪过程以恢复单个源。ZeroSep 无需任何特定任务的训练或微调,即可将生成扩散模型用于判别性分离任务,并通过其丰富的文本先验固有地支持开放集场景。ZeroSep 与各种预训练的文本引导音频扩散骨干网络兼容,并在多个分离基准测试中提供了强大的分离性能,甚至超越了有监督方法。
音频源分离是机器理解复杂声学环境的基础,也是众多音频应用的核心。当前的监督深度学习方法虽然强大,但受限于需要大量、任务特定的标注数据,并且难以泛化到现实世界声学场景的巨大变异性和开放集性质。受生成式基础模型成功的启发,我们研究了预训练的文本引导音频扩散模型是否能克服这些局限性。我们有了一个惊人的发现:在正确的配置下,仅通过预训练的文本引导音频扩散模型就可以实现零样本源分离。我们的方法名为 ZeroSep,其工作原理是将混合音频逆向映射到扩散模型的潜在空间,然后利用文本条件引导去噪过程以恢复单个源。ZeroSep 无需任何任务特定的训练或微调,将生成式扩散模型重新用于判别式分离任务,并通过其丰富的文本先验知识固有地支持开放集场景。ZeroSep 兼容各种预训练的文本引导音频扩散骨干网络,并在多个分离基准上提供了强大的分离性能,甚至超越了监督方法。我们的项目页面在这里:https://wikichao.github.io/ZeroSep/。