超越转录:ASR中的机制可解释性

发表
glazerglazer 提交
作者: glazerNeta Glazer, Yael Segal-FeldmanYael Segal-Feldman, Hilit SegevHilit Segev, Aviv ShamsianAviv Shamsian, Asaf Buchnick, Gill Hetz, Ethan Fetaya, Joseph Keshet, Aviv NavonAviv Navon

摘要

可解释性方法最近引起了广泛关注,尤其是在大型语言模型方面,它们能够深入了解语言表示、错误检测以及模型的行为,例如幻觉和重复。然而,这些技术在自动语音识别 (ASR) 领域尚未得到充分探索,尽管它们有潜力同时提升 ASR 系统的性能和可解释性。在这项工作中,我们将已有的可解释性方法,如 logit lens、线性探测和激活打补丁,进行调整并系统地应用,以检查声学和语义信息在 ASR 系统层级之间的演变。我们的实验揭示了先前未知的内部动态,包括负责重复幻觉的特定编码器-解码器交互,以及深深嵌入声学表示中的语义偏差。这些见解表明,将可解释性技术扩展和应用于语音识别具有诸多好处,并为未来在提高模型透明度和鲁棒性方面的研究开辟了充满希望的方向。
查看 arXiv 页面查看 PDF

评论

glazerglazer
论文作者
论文提交者

我们改编并应用了机械可解释性方法,系统地分析了自动语音识别(ASR)模型如何在不同层级处理和转换声学和语言信息。我们的发现揭示了模型偏差和幻觉背后的内部编码器-解码器动力学。期待听到大家对语音系统可解释性的看法!

AtilaAtila

这篇论文太棒了,@netag!在第 4.2 节“从解码器残差流预测幻觉”中,您在为幻觉线性探测整理数据集时提到“……零 WER 和 WER 值最高的 200 个样本……”。对于幻觉,难道不应该只按插入错误分量对样本进行排序(而不是构成总体 WER 的删除和替换)来更好地完成这项任务吗?无论如何,这项实验都很有价值,结果也非常鼓舞人心。

glazerglazer
论文作者
论文提交者

感谢您的关注!

您说得对,插入词是幻觉的更好信号。这里我们选择了一个简单的整体词错误率(WER)作为衡量标准。主要目标是强调解码器残差流与幻觉之间的潜在联系,并为未来的工作提供更具针对性的分析方向。