FASA:频率感知稀疏注意力机制

发表
xiaochonglinghuxiaochonglinghu 提交
作者: Yifei Wang, Yueqi Wang, Zhenrui Yue, Huimin Zeng, Yong Wang, Ismini LourentzouIsmini Lourentzou, Zhengzhong Tu, Xiangxiang Chu, Julian McAuley

摘要

AI 生成总结
FASA 是一个新颖的框架,利用 RoPE 中的查询感知标记剔除和功能稀疏性来减少 KV 缓存内存占用,同时在长上下文 LLM 任务中保持高性能。
大语言模型(LLM)的部署在处理长输入时面临一个关键瓶颈:键值(KV)缓存巨大的内存占用。为了解决这一瓶颈,Token 剪枝范式利用注意力稀疏性来选择性地保留一小部分关键 Token。然而,现有方法存在不足,静态方法可能导致不可逆的信息丢失,而动态策略采用的启发式方法无法充分捕捉 Token 重要性与查询(Query)的相关性。我们提出了 FASA,这是一个通过动态预测 Token 重要性来实现查询感知 Token 逐出的新颖框架。FASA 源于对 RoPE 的新颖见解:在频率块(FC)级别发现了功能稀疏性。我们的核心发现是,一小部分可识别的“主导”FC 始终与全注意力头表现出高度的上下文一致性。这为识别显著 Token 提供了一个鲁棒且计算开销为零的代理指标。基于这一见解,FASA 首先利用主导 FC 识别关键 Token 集,然后仅在该剪枝后的子集上进行聚焦注意力计算。由于仅访问一小部分 KV 缓存,FASA 大幅降低了内存带宽需求和计算成本。在从序列建模到复杂思维链(CoT)推理的一系列长上下文任务中,FASA 始终优于所有 Token 逐出基线,并达到了接近 Oracle 的准确率,即使在受限预算下也表现出卓越的鲁棒性。值得注意的是,在 LongBench-V1 上,FASA 在仅保留 256 个 Token 时达到了全量 KV 性能的近 100%,并在 AIME24 上仅使用 18.9% 的缓存就实现了 2.56 倍的加速。
查看 arXiv 页面查看 PDF

评论

xiaochonglinghuxiaochonglinghu
论文提交者

[ICLR26] 一项非常有趣且有效的加速大模型推理的工作!

xiaochonglinghuxiaochonglinghu
论文提交者

[ICLR26] 一项非常有趣且有效的加速大模型推理的工作!

yangyang

这项工作精准针对了长文本推理中最关键、最实际的瓶颈——解码过程中的 KV 缓存内存带宽压力。相比于仅关注 FLOPs 的优化,其面向内存流量的方法更符合真实世界的部署和端到端加速需求。总的来说,这是一项优秀的研究,我很享受阅读过程。

Mohamed EL harchaouiMohamed EL harchaoui

上个月我正和 ChatGPT 讨论这个想法!很高兴看到其他研究人员已经实现了它:

image