上下文学习通过对说话人和语言变体的类人适应提升语音识别

发表
Nathan RollNathan Roll 提交
作者: Nathan RollNathan Roll, Calbert Graham, Yuka Tatsumi, Kim Tien Nguyen, Meghan Sumner, Dan Jurafsky

摘要

人类听众通过接触可以轻松适应不熟悉的说话者和语言变体,但这些适应益处是否能扩展到最先进的口语模型?我们引入了一个可扩展的框架,该框架允许在 Phi-4 多模态模型中使用交错的任务提示和音频-文本对进行上下文学习 (ICL),并发现在推理时仅需 12 个示例话语(约 50 秒)即可在不同的英语语料库上平均将词错误率相对降低 19.7%(绝对降低 1.2 个百分点)。这些改进在资源匮乏的变体中、当上下文与目标说话者匹配时以及提供更多示例时最为显著——尽管扩展我们的程序会使上下文长度的边际收益递减。总的来说,我们发现我们新颖的 ICL 适应方案 (1) 揭示了与人类听众相似的性能特征,并且 (2) 在不同说话者和语言背景下展示了对自动语音识别 (ASR) 鲁棒性的持续改进。尽管适应普遍成功,但在某些变体中仍然存在显著差距,这揭示了当前模型在哪些方面仍未能达到人类的灵活性。我们在 GitHub 上发布了我们的提示和代码。
查看 arXiv 页面查看 PDF

评论

Nathan RollNathan Roll
论文作者
论文提交者

ICL 可以实现 SOTA 的 ASR 性能(如果您有一些标注数据)