Softpick: 没有注意力汇聚,没有大规模激活,使用修正 Softmax

发表
Zayd Muhammad Kawakibi ZuhriZayd Muhammad Kawakibi Zuhri 提交
作者: Zayd Muhammad Kawakibi ZuhriZayd M. K. Zuhri, EddErland Hilman Fuadi, Alham Fikri AjiAlham Fikri Aji

摘要

我们引入了 softpick,它是 Transformer 注意力机制中 softmax 的一个经过修正的、非和为一的直接替代品,消除了注意力下沉和巨大的激活值。我们在 3.4亿参数模型上的实验表明,softpick 在标准基准测试上与 softmax 保持性能持平,同时实现了 0% 的下沉率。使用 softpick 的 Transformer 产生的隐藏状态峰度显著降低(340 对比 33,510),并生成稀疏的注意力图(稀疏度为 46.97%)。量化后,使用 softpick 的模型始终优于 softmax 模型,在低比特精度下优势尤为明显。我们的分析和讨论表明,softpick 有潜力为量化、低精度训练、稀疏性优化、剪枝和可解释性等领域开辟新的可能性。我们的代码可在 https://github.com/zaydzuhri/softpick-attention 获取。
查看 arXiv 页面查看 PDF
Softpick: 没有注意力汇聚,没有大规模激活,使用修正 Softmax

评论

Zayd Muhammad Kawakibi ZuhriZayd Muhammad Kawakibi Zuhri
论文作者
论文提交者

我们引入了 softpick,这是一种针对 Transformer 注意力机制的 softmax 的修正的、非和为一的、可直接替换的替代方案,它消除了注意力汇聚(attention sink)和大规模激活(massive activations)。我们在 3.4 亿参数模型上的实验表明,softpick 在标准基准测试上与 softmax 保持性能一致,同时实现了 0% 的汇聚率。使用 softpick 的 Transformer 生成的隐藏状态具有显著更低的峰度(340 对比 33,510),并创建了稀疏的注意力图(46.97% 稀疏度)。使用 softpick 的模型在量化后始终优于 softmax,尤其是在较低的位精度下优势更为明显。我们的分析和讨论表明,softpick 有潜力为量化、低精度训练、稀疏性优化、剪枝和可解释性开辟新的可能性。我们的代码可在 https://github.com/zaydzuhri/softpick-attention 获取。

Zayd Muhammad Kawakibi ZuhriZayd Muhammad Kawakibi Zuhri
论文作者
论文提交者

注意:本文 V1 版中的 wikitext 困惑度数字是错误的。我们没有设置正确的 LM Eval Harness 配置。我们将迅速更正这些数字。

Kalle HilsenbekKalle Hilsenbek

主要的注意力瓶颈出现在参数量达数十亿的模型中。Softpick 能否在这种规模下减轻它们?

Zayd Muhammad Kawakibi ZuhriZayd Muhammad Kawakibi Zuhri
论文作者
论文提交者

这是一份早期预印本。我们很快就会扩展到 20 亿和 70 亿参数的模型规模并更新论文。敬请关注 👍