OWSM v4:通过数据扩增和清洗改进开放式 Whisper 风格语音模型

发表
Yifan PengYifan Peng 提交
作者: Yifan PengYifan Peng, Muhammad ShakeelShakeel Muhammad, Yui Sudo, William Chen, Jinchuan Tian, Chyi-Jiunn Lin, Shinji Watanabe

摘要

开放Whisper风格语音模型 (OWSM) 项目利用学术规模的资源开发了一系列完全开放的语音基础模型,但其训练数据仍然不足。本工作通过整合YODAS(一个具有知识共享许可的大规模网络抓取数据集)来增强OWSM。然而,由于YODAS的“野生”性质,其整合并非易事,带来了诸如语言标签不正确和音文本不对齐等挑战。为了解决这个问题,我们开发了一个使用公共工具包的可扩展数据清洗管道,生成了一个包含75种语言、166,000小时语音的数据集。我们新系列的OWSM v4模型,在现有OWSM数据的基础上,利用这个精心整理的数据集进行训练,在多语言基准测试中显著优于以前的版本。我们的模型甚至在多种场景下与Whisper和MMS等前沿工业模型相媲美或超越。我们将通过ESPnet工具包公开发布清理后的YODAS数据、预训练模型以及所有相关脚本。
查看 arXiv 页面查看 PDF

评论

Yifan PengYifan Peng
论文作者
论文提交者

Open Whisper风格语音模型(OWSM)项目利用学术规模的资源开发了一系列完全开放的语音基础模型,但其训练数据仍不足。本工作通过整合YODAS增强了OWSM,YODAS是一个拥有知识共享许可的大规模网络抓取数据集。然而,由于YODAS的原始特性,其整合并非易事,它带来了诸如不正确的语言标签和音频-文本错位等挑战。为了解决这个问题,我们利用公共工具包开发了一个可扩展的数据清洗管道,生成了一个包含75种语言、16.6万小时语音的数据集。我们新的OWSM v4系列模型,在现有OWSM数据的基础上,利用这个整理过的数据集进行训练,在多语言基准测试中显著优于以前的版本。我们的模型甚至在多个场景中与Whisper和MMS等前沿工业模型持平或超越。我们将通过ESPnet和Hugging Face公开发布清洗后的YODAS数据、预训练模型权重、训练和推理代码以及训练日志