⏶35
扩散语言模型中的注意力汇聚
发表
由
Maximo Rulli 提交
作者:
Maximo Eduardo Rulli, Simone Petruzzi, Edoardo Michielon, Fabrizio Silvestri, Simone Scardapane, Alessio Devoto
摘要
AI 生成总结
对 Masked Diffusion Language Models (DLMs) 的实证分析揭示了与自回归模型 (ARMs) 相比,DLM 具有独特的注意力沉降现象和鲁棒性。掩码扩散语言模型 (DLMs) 最近作为传统自回归模型 (ARMs)
的一种有前景的替代方案而出现。DLMs 采用带有双向注意力的 Transformer
编码器,能够在保持竞争性性能的同时并行生成 token。
尽管它们的效率和有效性已得到广泛研究,但控制 DLMs
内部机制仍未得到充分探索。在这项工作中,我们对 DLM
注意力模式进行了实证分析,重点关注注意力汇聚现象,这是一种以前在各种
Transformer 架构中观察到的效应。我们的研究结果表明,DLMs
也表现出注意力汇聚,但具有独特的特征。首先,与 ARMs
不同,DLMs 中的汇聚位置在生成过程中往往会发生变化,呈现出动态行为。
其次,虽然 ARMs 对移除注意力汇聚高度敏感,但 DLMs
保持鲁棒性:掩码汇聚只会导致性能的轻微下降。这些结果为扩散语言模型的内部工作原理
提供了新的见解,并强调了它们在注意力分配和利用方面与自回归模型的根本差异。



您也可以查看并分享原始帖子 https://x.com/devoto_alessio/status/1980668506979848249