⏶26
Softpick: 没有注意力汇聚,没有大规模激活,使用修正 Softmax
发表
由
Zayd Muhammad Kawakibi Zuhri 提交

作者:
Zayd M. K. Zuhri,
Erland Hilman Fuadi,
Alham Fikri Aji



摘要
我们引入了 softpick,它是 Transformer 注意力机制中 softmax 的一个经过修正的、非和为一的直接替代品,消除了注意力下沉和巨大的激活值。我们在 3.4亿参数模型上的实验表明,softpick 在标准基准测试上与 softmax 保持性能持平,同时实现了 0% 的下沉率。使用 softpick 的 Transformer 产生的隐藏状态峰度显著降低(340 对比 33,510),并生成稀疏的注意力图(稀疏度为 46.97%)。量化后,使用 softpick 的模型始终优于 softmax 模型,在低比特精度下优势尤为明显。我们的分析和讨论表明,softpick 有潜力为量化、低精度训练、稀疏性优化、剪枝和可解释性等领域开辟新的可能性。我们的代码可在 https://github.com/zaydzuhri/softpick-attention 获取。

我们引入了 softpick,这是一种针对 Transformer 注意力机制的 softmax 的修正的、非和为一的、可直接替换的替代方案,它消除了注意力汇聚(attention sink)和大规模激活(massive activations)。我们在 3.4 亿参数模型上的实验表明,softpick 在标准基准测试上与 softmax 保持性能一致,同时实现了 0% 的汇聚率。使用 softpick 的 Transformer 生成的隐藏状态具有显著更低的峰度(340 对比 33,510),并创建了稀疏的注意力图(46.97% 稀疏度)。使用 softpick 的模型在量化后始终优于 softmax,尤其是在较低的位精度下优势更为明显。我们的分析和讨论表明,softpick 有潜力为量化、低精度训练、稀疏性优化、剪枝和可解释性开辟新的可能性。我们的代码可在 https://github.com/zaydzuhri/softpick-attention 获取。