⏶83
超越转录:ASR中的机制可解释性
发表
由
glazer 提交
作者:
Neta Glazer,
Yael Segal-Feldman,
Hilit Segev,
Aviv Shamsian, Asaf Buchnick, Gill Hetz, Ethan Fetaya, Joseph Keshet,
Aviv Navon
摘要
可解释性方法最近引起了广泛关注,尤其是在大型语言模型方面,它们能够深入了解语言表示、错误检测以及模型的行为,例如幻觉和重复。然而,这些技术在自动语音识别 (ASR) 领域尚未得到充分探索,尽管它们有潜力同时提升 ASR 系统的性能和可解释性。在这项工作中,我们将已有的可解释性方法,如 logit lens、线性探测和激活打补丁,进行调整并系统地应用,以检查声学和语义信息在 ASR 系统层级之间的演变。我们的实验揭示了先前未知的内部动态,包括负责重复幻觉的特定编码器-解码器交互,以及深深嵌入声学表示中的语义偏差。这些见解表明,将可解释性技术扩展和应用于语音识别具有诸多好处,并为未来在提高模型透明度和鲁棒性方面的研究开辟了充满希望的方向。
我们改编并应用了机械可解释性方法,系统地分析了自动语音识别(ASR)模型如何在不同层级处理和转换声学和语言信息。我们的发现揭示了模型偏差和幻觉背后的内部编码器-解码器动力学。期待听到大家对语音系统可解释性的看法!