⏶2
月光风味:面向边缘设备的微型专用ASR模型
发表
由
Evan King 提交
作者:
Evan King,
Adam Sabra, Manjunath Kudlur, James Wang, Pete Warden

摘要
我们展示“月光风味”(Flavors of Moonshine),这是一套专门针对一系列代表性不足的语言设计的小型自动语音识别 (ASR) 模型。普遍的观点认为,多语言 ASR 模型通过利用跨语言的语音相似性,可以优于单语模型。我们挑战了这一假设,表明对于足够小的模型(2700 万个参数),在仔细平衡的高质量人类标注、伪标注和合成数据混合上训练的单语系统,可以产生显著更优越的性能。平均而言,我们的模型错误率比同等大小的 Whisper Tiny 模型低 48%,优于体积大 9 倍的 Whisper Small 模型,并且在大多数情况下能够媲美甚至超越体积大 28 倍的 Whisper Medium 模型。这些结果推动了同等规模模型的最新技术水平,实现了之前支持有限的语言的准确的设备端 ASR。我们以宽松的开源许可证发布阿拉伯语、中文、日语、韩语、乌克兰语和越南语的 Moonshine 模型。
我们新推出的 Moonshine Tiny ASR 模型支持 6 种语言,并且在体积比它们小 9 倍到 28 倍的情况下,性能超越了 Whisper Small 和 Whisper Medium。它们针对边缘设备的低延迟和计算需求进行了优化。我们发布了阿拉伯语、汉语、日语、韩语、乌克兰语和越南语的开源模型。