SoloSpeech:通过级联生成管线增强目标语音提取的清晰度和质量

发表
Helin WangHelin Wang 提交
作者: Helin WangHelin Wang, Jiarui HaiJiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesus Villalba, Najim Dehak

摘要

目标语音提取(TSE)旨在通过利用说话人特定的线索(通常以辅助音频(即 cue audio)的形式提供),从多个说话人的混合中分离出目标说话人的声音。尽管最近的 TSE 进展主要采用了辨别模型,提供了高感知质量,但这些模型经常引入不需要的伪影,降低自然度,并且对训练和测试环境之间的差异很敏感。另一方面,用于 TSE 的生成模型在感知质量和可懂度方面滞后。为了解决这些挑战,我们提出了 SoloSpeech,一个新颖的级联生成管线,它集成了压缩、提取、重建和校正过程。SoloSpeech 具有一个无说话人嵌入的目标提取器,它利用来自 cue audio 潜在空间的条件信息,将其与混合音频的潜在空间对齐,以防止失配。在广泛使用的 Libri2Mix 数据集上进行评估,SoloSpeech 在目标语音提取和语音分离任务中实现了新的最先进的可懂度和质量,同时在域外数据和真实世界场景中表现出卓越的泛化能力。
查看 arXiv 页面查看 PDF

评论