⏶11

USAD：通过蒸馏实现通用语音和音频表示

06月23日发表

06月25日由 Heng-Jui Chang 提交

作者: Heng-Jui Chang, Saurabhchand Bhati, James Glass, Alexander H. Liu

摘要

自监督学习（SSL）彻底改变了音频表示，但模型通常仍是领域特定的，专注于语音或非语音任务。在这项工作中，我们提出了通用语音和音频蒸馏（USAD），这是一种统一的音频表示学习方法，它将不同类型的音频——语音、声音和音乐——整合到单一模型中。USAD采用高效的层到层蒸馏技术，从领域特定的SSL模型中训练一个学生模型，使其能够处理全面的音频数据集。USAD在各种基准和数据集上表现出具有竞争力的性能，包括帧级和实例级语音处理任务、音频标签和声音分类，在SUPERB和HEAR基准测试中，使用单个编码器实现了接近最先进的结果。

查看 arXiv 页面查看 PDF

Heng-Jui Chang

论文作者

论文提交者

论文: https://arxiv.org/abs/2506.18843

模型: https://huggingface.co/collections/MIT-SLS/usad-models-68491d4c7d0978b85d0c4299

USAD：通过蒸馏实现通用语音和音频表示

摘要

评论