一个利用TTS合成数据增强ASR的自精炼框架

发表
許湛然許湛然 提交
作者: Cheng Kang Chou, Chan-Jan Hsu, Ho-Lam Chung, Liang-Hsuan TsengLiang-Hsuan Tseng, Leo ChengHsi-Chun Cheng, Yu-Kuan FuYu-Kuan Fu, Kuan Po Huang, Hung-yi LeeHung-Yi Lee

摘要

我们提出了一种自完善框架,仅利用未标注数据集即可提升ASR性能。该过程始于一个现有的ASR模型在未标注语音上生成伪标签,然后这些伪标签被用于训练一个高保真文本到语音(TTS)系统。随后,合成的语音-文本对被重新引入原始ASR系统,从而完成了闭环自改进周期。我们在台湾普通话语音上验证了该框架的有效性。利用6000小时的未标注语音、适量的文本数据以及AI模型合成的内容,我们将Whisper-large-v2改造为一个专用模型——Twister。与Whisper相比,Twister在普通话上的错误率降低了20%,在普通话-英语语码转换基准测试中降低了50%。结果表明,该框架是伪标签自蒸馏方法的一个引人注目的替代方案,并为在低资源或特定领域设置中提高ASR性能提供了一条实用途径。
查看 arXiv 页面查看 PDF

评论

許湛然許湛然
论文提交者

我们提出了一种自完善框架,仅使用未标注数据集即可提升 ASR 性能。该过程始于一个现有的 ASR 模型在未标注语音上生成伪标签,然后利用这些伪标签训练一个高保真文本转语音(TTS)系统。随后,将合成的语音文本对引导回原始 ASR 系统,从而完成闭环的自我提升循环。我们在台湾普通话语音上验证了该框架的有效性。通过利用 6,000 小时的未标注语音、适量的文本数据以及来自 AI 模型的合成内容,我们将 Whisper-large-v2 调整为一个专用模型 Twister。与 Whisper 相比,Twister 在普通话上的错误率降低了高达 20%,在普通话-英语语码转换基准测试上降低了 50%。结果表明,该框架是伪标签自蒸馏方法的一个引人注目的替代方案,并为在低资源或特定领域设置中提高 ASR 性能提供了一条实用途径。