⏶35
Prism:频谱感知的块稀疏注意力机制
发表
由
XinghaoWang 提交
作者:
Xinghao Wang, Pengyu Wang,
Xiaoran Liu, Fangxu Liu, Jason Chu, Kai Song, Xipeng Qiu
摘要
AI 生成总结
Prism 通过使用频谱感知方法解决长文本 LLM 预填充中块稀疏注意力的低效问题,该方法通过基于能量的温度校准提高了块选择的准确性。块稀疏注意力在加速长上下文 LLM 预填充方面具有前景,但高效识别相关块仍是瓶颈。现有方法通常采用粗粒度注意力作为估计块重要性的代理,但往往诉诸昂贵的 Token 级搜索或评分,导致显著的选择开销。在这项工作中,我们通过均值池化追踪标准粗粒度注意力的不准确性,发现其理论根源在于:均值池化与旋转位置嵌入 (RoPE) 之间的相互作用。我们证明了均值池化充当了低通滤波器,在高频维度诱发相消干涉,从而有效地为局部位置信息(例如斜杠模式)创造了“盲点”。为了解决这个问题,我们引入了 Prism,一种无需训练的频谱感知方法,将块选择分解为高频和低频分支。通过应用基于能量的温度校准,Prism 直接从池化表示中恢复衰减的位置信号,从而实现纯块级操作的块重要性估计,进而提高效率。广泛评估确认,Prism 在保持与全注意力精度一致的同时,实现了高达 5.1 倍的加速。
评论
论文作者
论文提交者
查看这篇介绍 Prism 想法的博客:
https://efficacious-citrus-7a0.notion.site/Prism-Spectral-Aware-Block-Sparse-Attention-304d97f5df9d80318802f9cb37d18c3e
Prism 是一种无需训练的方法,用于加速长上下文 LLM 的预填充。它通过将注意力分解为高频和低频段,解决了旋转位置嵌入(RoPE)导致的标准平均池化中的“盲点”。
核心特性:
* 双频重要性估计: 分离语义(低频)和位置(高频)信号。
* 基于能量的校准: 自动恢复衰减信号。
* 速度: 在 128K 上下文中实现高达 5.1倍的加速,且准确率损失微乎其微。
* 实现: 纯块级操作,配合自定义算子实现高效估计。