Voxlect:一个用于全球方言和区域语言建模的语音基础模型基准

发表
Tiantian FengTiantian Feng 提交
作者: Tiantian FengTiantian Feng, Kevin Huang, Anfeng Xu, Xuan Shi, Thanathai Lertpetchpun, Jihwan Lee, Yoonjeong Lee, Dani Byrd, Shrikanth Narayanan

摘要

我们提出了 Voxlect,一个新颖的基准,用于使用语音基础模型对全球方言和区域语言进行建模。具体而言,我们报告了对英语、阿拉伯语、普通话和粤语、藏语、印度语言、泰语、西班牙语、法语、德语、巴西葡萄牙语和意大利语中的方言和区域语言变体的全面基准评估。我们的研究使用了来自 30 个公开可用的语音语料库的 200 多万条训练话语,这些语料库提供了方言信息。我们评估了几种广泛使用的语音基础模型在分类语音方言方面的性能。我们评估了方言模型在嘈杂条件下的鲁棒性,并提供了错误分析,突出了与地理连续性一致的建模结果。除了基准测试方言分类之外,我们还展示了 Voxlect 启用的几个下游应用。具体而言,我们展示了 Voxlect 可以应用于使用方言信息增强现有语音识别数据集,从而能够更详细地分析跨方言变化的 ASR 性能。Voxlect 也被用作评估语音生成系统性能的工具。Voxlect 在 RAIL 系列许可下公开提供,网址为:https://github.com/tiantiaf0627/voxlect
查看 arXiv 页面查看 PDF

评论

Tiantian FengTiantian Feng
论文作者
论文提交者

我们推出了 Voxlect,这是一个新颖的基准测试,用于使用语音基础模型对全球语音方言和区域语言进行建模。具体来说,我们报告了对英语、阿拉伯语、普通话和粤语、藏语、印度语言、泰语、西班牙语、法语、德语、巴西葡萄牙语和意大利语中的方言和区域语言变体进行的全面基准评估。我们的研究使用了来自 30 个公开可用语音源的 200 多万条训练语音,这些语音源提供了方言信息。我们评估了几种广泛使用的语音基础模型在语音方言分类方面的性能。我们评估了方言模型在嘈杂条件下的鲁棒性,并提供了错误分析,突出了与地理连续性一致的建模结果。我们的所有基准模型都在 HuggingFace 上:[ Whisper-Large v3 模型][MMS-LID-256 模型]。我们的模型加载代码可在以下位置获得:https://github.com/tiantiaf0627/voxlect/tree/main