USAD:通过蒸馏实现通用语音和音频表示

发表
Heng-Jui ChangHeng-Jui Chang 提交
作者: Heng-Jui ChangHeng-Jui Chang, Saurabhchand BhatiSaurabhchand Bhati, James Glass, Alexander H. Liu

摘要

自监督学习(SSL)彻底改变了音频表示,但模型通常仍是领域特定的,专注于语音或非语音任务。在这项工作中,我们提出了通用语音和音频蒸馏(USAD),这是一种统一的音频表示学习方法,它将不同类型的音频——语音、声音和音乐——整合到单一模型中。USAD采用高效的层到层蒸馏技术,从领域特定的SSL模型中训练一个学生模型,使其能够处理全面的音频数据集。USAD在各种基准和数据集上表现出具有竞争力的性能,包括帧级和实例级语音处理任务、音频标签和声音分类,在SUPERB和HEAR基准测试中,使用单个编码器实现了接近最先进的结果。
查看 arXiv 页面查看 PDF
USAD:通过蒸馏实现通用语音和音频表示

评论