⏶9
从数十小时到数万小时:扩展用于语音识别的回译
发表
由
Tianduo Wang 提交

作者: Tianduo Wang, Lu Xu, Wei Lu, Shanbo Cheng
摘要
近年来,自动语音识别(ASR)领域的进展很大程度上得益于大规模语音语料库。然而,将覆盖范围扩展到资源有限的多样化语言仍然是一个严峻的挑战。本文介绍了语音回译(Speech Back-Translation),这是一个可扩展的流水线,通过现成的文本转语音(TTS)模型将大规模文本语料库转换为合成语音,从而改进多语言ASR模型。我们证明,只需数十小时的真实转录语音就可以有效地训练TTS模型,以数百倍于原始体积的速度生成合成语音,同时保持高质量。为了评估合成语音质量,我们开发了一个基于可懂度的评估框架,并确定了合成数据何时对ASR训练有益的明确阈值。利用语音回译,我们在十种语言中生成了超过500,000小时的合成语音,并继续对Whisper-large-v3进行预训练,实现了平均转录错误率降低超过30%。这些结果突显了语音回译在增强多语言ASR系统方面的可扩展性和有效性。
我们的代码已发布在 https://github.com/TianduoWang/Speech-BT