⏶26

Softpick: 没有注意力汇聚，没有大规模激活，使用修正 Softmax

04月29日发表

05月01日由 Zayd Muhammad Kawakibi Zuhri 提交

作者: Zayd M. K. Zuhri, Edd Erland Hilman Fuadi, Alham Fikri Aji

摘要

我们引入了 softpick，它是 Transformer 注意力机制中 softmax 的一个经过修正的、非和为一的直接替代品，消除了注意力下沉和巨大的激活值。我们在 3.4亿参数模型上的实验表明，softpick 在标准基准测试上与 softmax 保持性能持平，同时实现了 0% 的下沉率。使用 softpick 的 Transformer 产生的隐藏状态峰度显著降低（340 对比 33,510），并生成稀疏的注意力图（稀疏度为 46.97%）。量化后，使用 softpick 的模型始终优于 softmax 模型，在低比特精度下优势尤为明显。我们的分析和讨论表明，softpick 有潜力为量化、低精度训练、稀疏性优化、剪枝和可解释性等领域开辟新的可能性。我们的代码可在 https://github.com/zaydzuhri/softpick-attention 获取。

查看 arXiv 页面查看 PDF

Zayd Muhammad Kawakibi Zuhri

论文作者

论文提交者

我们引入了 softpick，这是一种针对 Transformer 注意力机制的 softmax 的修正的、非和为一的、可直接替换的替代方案，它消除了注意力汇聚（attention sink）和大规模激活（massive activations）。我们在 3.4 亿参数模型上的实验表明，softpick 在标准基准测试上与 softmax 保持性能一致，同时实现了 0% 的汇聚率。使用 softpick 的 Transformer 生成的隐藏状态具有显著更低的峰度（340 对比 33,510），并创建了稀疏的注意力图（46.97% 稀疏度）。使用 softpick 的模型在量化后始终优于 softmax，尤其是在较低的位精度下优势更为明显。我们的分析和讨论表明，softpick 有潜力为量化、低精度训练、稀疏性优化、剪枝和可解释性开辟新的可能性。我们的代码可在 https://github.com/zaydzuhri/softpick-attention 获取。

Zayd Muhammad Kawakibi Zuhri

论文作者

论文提交者

注意：本文 V1 版中的 wikitext 困惑度数字是错误的。我们没有设置正确的 LM Eval Harness 配置。我们将迅速更正这些数字。

Kalle Hilsenbek

主要的注意力瓶颈出现在参数量达数十亿的模型中。Softpick 能否在这种规模下减轻它们？

Zayd Muhammad Kawakibi Zuhri

论文作者

论文提交者

这是一份早期预印本。我们很快就会扩展到 20 亿和 70 亿参数的模型规模并更新论文。敬请关注 👍

Softpick: 没有注意力汇聚，没有大规模激活，使用修正 Softmax

摘要

评论