少即是多:无需训练的稀疏注意力,具备全局局部性,实现高效推理

发表
Lijie YangLijie Yang 提交
作者: Lijie YangLijie Yang, Zhihao Zhang, Arti Jain, Shijie Cao, Baihong Yuan, Yiwei Chen, Zhihao Jia, Ravi Netravali

摘要

大型推理模型通过测试时扩展实现了强大的性能,但会产生大量的计算开销,尤其是在处理短输入提示时,过多的令牌生成会造成额外的开销。虽然稀疏注意力机制可以减少延迟和内存使用,但现有方法由于在长时间生成推理过程中累积的错误而导致显著的准确性下降。这些方法通常需要高令牌保留率或昂贵的再训练。我们引入了LessIsMore,一种用于推理任务的无需训练的稀疏注意力机制,它利用全局注意力模式,而不是依赖传统的头部特定局部优化。LessIsMore将来自局部注意力头部的令牌选择与最近的上下文信息聚合,从而实现未来解码层的统一跨头部令牌排序。这种统一选择通过避免为每个头部维护单独的令牌子集而提高了泛化性和效率。在各种推理任务和基准上的评估表明,LessIsMore在保持(某些情况下甚至提高)准确性的同时,实现了比全注意力平均1.1倍的解码加速。此外,LessIsMore关注的令牌数量减少了2倍,而没有损失准确性,与现有稀疏注意力方法相比,端到端速度提升了1.13倍。
查看 arXiv 页面查看 PDF

评论

Lijie YangLijie Yang
论文作者
论文提交者

我们提出了LessIsMore,这是一种无需训练的稀疏注意力方法,旨在提高推理模型的效率,同时保持准确性。它通过统一注意力头选择执行精确的token选择,并保持固定比例的近期窗口以确保准确性和效率。

从经验上看,LessIsMore在主流推理任务中保持了准确性,稀疏度高达87.5%,且不延长生成长度,持续优于SOTA稀疏注意力基线;此外,我们实现了相对于全注意力1.10倍的平均解码速度提升,以及相对于SOTA稀疏注意力方法1.13倍的端到端速度提升。

📄 论文:https://arxiv.org/abs/2508.07101

💻 代码:https://github.com/DerrickYLJ/LessIsMore

Katy YuKaty Yu

真正令人印象深刻的工作!喜欢这种方法保持简单,同时又能提高推理效率而不损失准确性——感觉非常实用。