注意力机制中归一化的局限性

发表
MIKHAIL BURTSEVMIKHAIL BURTSEV 提交
作者: Timur MudarisovTimur Mudarisov, MIKHAIL BURTSEVMikhail Burtsev, Tatiana Petrova, Radu State

摘要

本文探讨了注意力机制中归一化的局限性。我们从一个理论框架入手,该框架能够识别模型的选择能力以及涉及到的 token 选择的几何分离。我们的分析包括对 softmax 缩放下 token 向量距离和分离标准的明确界限。通过对预训练 GPT-2 模型进行的实验,我们实证验证了我们的理论结果,并分析了注意力机制的关键行为。值得注意的是,我们证明了随着所选 token 数量的增加,模型区分信息性 token 的能力会下降,通常会趋向于统一的选择模式。我们还表明,softmax 归一化下的梯度敏感性在训练过程中会带来挑战,尤其是在低温度设置下。这些发现增进了对基于 softmax 的注意力机制的理解,并表明未来注意力架构需要更鲁棒的归一化和选择策略。
查看 arXiv 页面查看 PDF

评论

MIKHAIL BURTSEVMIKHAIL BURTSEV
论文作者
论文提交者

Screenshot 2025-08-26 at 10-59-25 Limitations of Normalization in Attention Mechanism - 2508.17821v1.pdf.png

MIKHAIL BURTSEVMIKHAIL BURTSEV
论文作者
论文提交者

Screenshot 2025-08-26 at 11-00-16 Limitations of Normalization in Attention Mechanism - 2508.17821v1.pdf.png

MIKHAIL BURTSEVMIKHAIL BURTSEV
论文作者
论文提交者

Screenshot 2025-08-26 at 11-00-56 Limitations of Normalization in Attention Mechanism - 2508.17821v1.pdf.png

MIKHAIL BURTSEVMIKHAIL BURTSEV
论文作者
论文提交者

Screenshot 2025-08-26 at 11-01-28 Limitations of Normalization in Attention Mechanism - 2508.17821v1.pdf.png