⏶9
DeCRED:用于基于编码器-解码器的语音识别的以解码器为中心的正则化
发表
由
Alexander Polok 提交
作者: Alexander Polok, Santosh Kesiraju, Karel Beneš, Bolaji Yusuf, Lukáš Burget, Jan Černocký
摘要
本文针对编码器-解码器ASR模型中解码器所诱导的内部语言模型,提出了一种简单而有效的正则化方法,从而提高了域内和域外设置的鲁棒性和泛化能力。所提出的方法,即编码器-解码器中的解码器中心正则化(DeCRED),为解码器增加了辅助分类器,使得能够通过中间对数进行下一个标记预测。经验上,DeCRED相对于11个测试集,将平均内部LM BPE困惑度相对降低了36.6%。此外,这转化为在7个域内测试集中的5个和4个域外测试集中的3个中,实际WER(词错误率)相对于基线有所改善,将宏观WER分别从6.4%降低到6.3%和18.2%降低到16.2%。在TEDLIUM3数据集上,DeCRED实现了7.0%的WER,分别比基线和以编码器为中心的InterCTC正则化高出0.6%和0.5%。最后,我们将DeCRED与OWSM v3.1和Whisper-medium进行了比较,结果显示尽管训练数据量和参数量少得多,但WER仍具竞争力。
已被 IEEE ASRU 2025 接收