Drax:通过离散流匹配进行语音识别

发表
Aviv NavonAviv Navon 提交
作者: Aviv Navon, Aviv Shamsian, Neta Glazer, Yael Segal-Feldman, Gill Hetz, Joseph Keshet, Ethan Fetaya

摘要

AI 生成总结
Drax,一种用于ASR的离散流匹配框架,通过构建音频条件概率路径,实现了最先进的识别精度并提高了效率。
扩散和基于流的非自回归(NAR)模型在大语言建模方面显示出强大的潜力,但它们在自动语音识别(ASR)方面的潜力仍未得到充分探索。我们提出了 Drax,一个用于 ASR 的离散流匹配框架,它能够实现高效的并行解码。为了更好地使训练与推理对齐,我们构建了一个音频条件概率路径,该路径通过类似于可能的中间推理错误的轨迹引导模型,而不是直接从随机噪声到目标进行转换。我们的理论分析将泛化差距与训练和推理占用之间的差异联系起来,这些差异由累积速度误差控制,从而为我们的设计选择提供了依据。实证评估表明,我们的方法在识别精度上与最先进的语音模型相当,同时提供了更好的精度-效率权衡,突出了离散流匹配作为推动 NAR ASR 的一个有前途的方向。
查看 arXiv 页面查看 PDF
Drax:通过离散流匹配进行语音识别

评论

aiOlaaiOla

💻 代码 | 🤗 模型

Aviv NavonAviv Navon
论文提交者

我们提出了 Drax,一种使用离散流匹配的非自回归 ASR 模型,其中包含一个音频条件化的中间分布,以更好地匹配推理动态。
Drax 实现了与最先进的自回归模型相媲美的准确性,同时提供了对准确性-效率权衡点的更好控制。