⏶11
USAD:通过蒸馏实现通用语音和音频表示
发表
由
Heng-Jui Chang 提交

作者:
Heng-Jui Chang,
Saurabhchand Bhati, James Glass, Alexander H. Liu

摘要
自监督学习(SSL)彻底改变了音频表示,但模型通常仍是领域特定的,专注于语音或非语音任务。在这项工作中,我们提出了通用语音和音频蒸馏(USAD),这是一种统一的音频表示学习方法,它将不同类型的音频——语音、声音和音乐——整合到单一模型中。USAD采用高效的层到层蒸馏技术,从领域特定的SSL模型中训练一个学生模型,使其能够处理全面的音频数据集。USAD在各种基准和数据集上表现出具有竞争力的性能,包括帧级和实例级语音处理任务、音频标签和声音分类,在SUPERB和HEAR基准测试中,使用单个编码器实现了接近最先进的结果。

论文: https://arxiv.org/abs/2506.18843
模型: https://huggingface.co/collections/MIT-SLS/usad-models-68491d4c7d0978b85d0c4299