⏶147
FASA:频率感知稀疏注意力机制
发表
由
xiaochonglinghu 提交
作者: Yifei Wang, Yueqi Wang, Zhenrui Yue, Huimin Zeng, Yong Wang,
Ismini Lourentzou, Zhengzhong Tu, Xiangxiang Chu, Julian McAuley
摘要
AI 生成总结
FASA 是一个新颖的框架,利用 RoPE 中的查询感知标记剔除和功能稀疏性来减少 KV 缓存内存占用,同时在长上下文 LLM 任务中保持高性能。大语言模型(LLM)的部署在处理长输入时面临一个关键瓶颈:键值(KV)缓存巨大的内存占用。为了解决这一瓶颈,Token 剪枝范式利用注意力稀疏性来选择性地保留一小部分关键 Token。然而,现有方法存在不足,静态方法可能导致不可逆的信息丢失,而动态策略采用的启发式方法无法充分捕捉 Token 重要性与查询(Query)的相关性。我们提出了 FASA,这是一个通过动态预测 Token 重要性来实现查询感知 Token 逐出的新颖框架。FASA 源于对 RoPE 的新颖见解:在频率块(FC)级别发现了功能稀疏性。我们的核心发现是,一小部分可识别的“主导”FC 始终与全注意力头表现出高度的上下文一致性。这为识别显著 Token 提供了一个鲁棒且计算开销为零的代理指标。基于这一见解,FASA 首先利用主导 FC 识别关键 Token 集,然后仅在该剪枝后的子集上进行聚焦注意力计算。由于仅访问一小部分 KV 缓存,FASA 大幅降低了内存带宽需求和计算成本。在从序列建模到复杂思维链(CoT)推理的一系列长上下文任务中,FASA 始终优于所有 Token 逐出基线,并达到了接近 Oracle 的准确率,即使在受限预算下也表现出卓越的鲁棒性。值得注意的是,在 LongBench-V1 上,FASA 在仅保留 256 个 Token 时达到了全量 KV 性能的近 100%,并在 AIME24 上仅使用 18.9% 的缓存就实现了 2.56 倍的加速。

[ICLR26] 一项非常有趣且有效的加速大模型推理的工作!