Delta Attention: 通过Delta修正实现快速准确的稀疏注意力推理

发表
Heejun LeeHeejun Lee 提交
作者: Jeff WilletteJeffrey Willette, Heejun LeeHeejun Lee, Sung Ju Hwang

摘要

Transformer的注意力机制具有二次复杂度,导致长序列的推理成本和延迟很高。然而,注意力矩阵大多是稀疏的,这意味着为了高效推理,可以省略许多计算条目。稀疏注意力推理方法旨在减少这种计算负担;然而,它们也带来了麻烦的性能下降。我们发现造成这种下降的一个原因是稀疏计算导致注意力输出发生分布偏移。这种分布偏移使得解码时的查询无法与预填充阶段的合适键良好对齐,从而导致性能下降。我们提出了一种简单、新颖且有效的程序来纠正这种分布偏移,使稀疏注意力输出的分布更接近二次注意力的分布。我们的方法可以应用于任何稀疏注意力方法之上,在应用于带有sink tokens的滑动窗口注意力之上时,在131K RULER基准测试中平均性能提升了36%pt,恢复了二次注意力准确率的88%,同时只增加了少量开销。我们的方法可以保持约98.5%的相对于全二次注意力的稀疏度,使得我们的模型在处理1M token预填充时比Flash Attention 2快32倍。
查看 arXiv 页面查看 PDF

评论

Heejun LeeHeejun Lee
论文作者
论文提交者

Delta Attention 通过增加最小的延迟开销(大约是完全注意力机制的 1.5%),提高了任何稀疏注意力机制的准确性,例如 HiP Attention、Minference 和 Streaming LLM。

SmartSelect_20250519_234635_Drive.jpg