修正稀疏注意力

发表
Yutao SunYutao Sun 提交
作者: Yutao SunYutao Sun, Tianzhu Ye, Li Dong, Yuqing Xia, Jian Chen, Yizhao Gao, Shijie Cao, Jianyong Wang, Furu WeiFuru Wei

摘要

高效的长序列生成是大型语言模型面临的关键挑战。尽管最近的稀疏解码方法提高了效率,但它们存在 KV 缓存未对齐问题,导致近似误差累积并降低生成质量。在这项工作中,我们提出了修正稀疏注意力(ReSA),这是一种简单而有效的方法,它将块稀疏注意力与周期性密集修正相结合。通过在固定间隔使用密集前向传播刷新 KV 缓存,ReSA 限制了误差累积,并保持了与预训练分布的对齐。在数学推理、语言建模和检索任务中的实验表明,ReSA 实现了接近无损的生成质量,并显著提高了效率。值得注意的是,ReSA 在 256K 序列长度解码下,端到端加速高达 2.42 倍,使其成为可扩展长上下文推理的实用解决方案。代码可在 https://aka.ms/ReSA-LM 获取。
查看 arXiv 页面查看 PDF

评论

Yutao SunYutao Sun
论文作者
论文提交者

高效的长序列生成是大型语言模型面临的一个关键挑战。虽然最近的稀疏解码方法提高了效率,但它们存在KV缓存未对齐的问题,导致近似误差累积并降低生成质量。在这项工作中,我们提出了修正稀疏注意力(ReSA),这是一种简单而有效的方法,它将块稀疏注意力与周期性密集修正相结合。通过使用密集前向传递在固定间隔刷新KV缓存,ReSA限制了误差累积并保持与预训练分布的对齐。在数学推理、语言建模和检索任务上的实验表明,ReSA以显著提高的效率实现了近乎无损的生成质量。值得注意的是,ReSA在256K序列长度解码下提供了高达2.42$\times$的端到端加速,使其成为可扩展长上下文推理的实用解决方案。代码可在 https://aka.ms/ReSA-LM 获取。