⏶3
基于离散扩散的词元音频补全
发表
由
Tali Dror 提交
作者:
Tali Dror, Iftach Shoham, Moshe Buchris, Oren Gal, Haim Permuter, Gilad Katz, Eliya Nachmani
摘要
音频修复(Audio inpainting)是指重建损坏录音中缺失片段的任务。尽管先前的方法——包括基于波形和频谱图的扩散模型——在处理短时长的缺失(short gaps)时已显示出可喜的结果,但当缺失时长超过100毫秒(ms)时,其质量通常会下降。在这项工作中,我们引入了一种基于离散扩散模型的新颖修复方法,该方法对由预训练音频标记器(audio tokenizer)产生的标记化音频表示进行操作。我们的方法直接在离散潜在空间中对生成过程进行建模,从而能够稳定且语义连贯地重建缺失的音频。我们在MusicNet数据集上,使用客观和感知指标,评估了该方法在长达300毫秒的各种缺失时长下的性能。我们还在MTG数据集上进一步评估了我们的方法,并将缺失时长扩展到500毫秒。实验结果表明,与现有基线相比,我们的方法取得了具有竞争力或更优的性能,尤其是在处理较长时长的缺失时,为恢复降质的音乐录音提供了一种鲁棒的解决方案。我们所提出方法的音频示例,请访问 https://iftach21.github.io/ 收听。


音频修复是指重建损坏音频记录中缺失片段的任务。尽管先前的方法(包括基于波形和频谱图的扩散模型)在短间隙方面表现出有希望的结果,但当间隙超过100毫秒(ms)时,它们的质量通常会下降。在这项工作中,我们引入了一种基于离散扩散建模的新型修复方法,该方法在预训练音频分词器生成的令牌化音频表示上进行操作。我们的方法直接在离散潜在空间中建模生成过程,从而实现对缺失音频的稳定且语义连贯的重建。我们使用客观和感知指标在MusicNet数据集上评估了该方法,涵盖了长达300毫秒的间隙持续时间。我们还在MTG数据集上进一步评估了我们的方法,将间隙持续时间扩展到500毫秒。实验结果表明,我们的方法与现有基线相比,实现了具有竞争力或更优的性能,特别是对于更长的间隙,为恢复受损音乐录音提供了强大的解决方案。我们所提出方法的音频示例可在 https://iftach21.github.io/ 找到。