注意力模式为何存在:统一的时间视角分析

发表
Charlie_liCharlie_li 提交
作者: Qingyue Yang, Jie Wang, Xing Li, Yinqi Bai, Xialiang Tong, Huiling Zhen, Jianye Hao, Mingxuan Yuan, Bin Li

摘要

AI 生成总结
时间注意力模式可预测性分析 (TAPPA) 提供了一个统一框架,通过从时间维度分析大语言模型的数学公式来理解其注意力模式,根据查询自相似性区分可预测模式与不可预测模式。
注意力模式在大语言模型(LLMs)的训练和推理中都起着至关重要。先前的工作已经识别了单个模式,如检索头、汇聚头(sink heads)和对角线轨迹,但这些观察仍然是碎片化的,缺乏统一的解释。为了弥补这一差距,我们引入了时间注意力模式可预测性分析(TAPPA),这是一个统一的框架,通过从时间连续的角度分析其潜在的数学公式来解释各种注意力模式。TAPPA 既深化了对注意力行为的理解,又指导了推理加速方法。具体而言,TAPPA 将注意力模式表征为具有明显规律性的可预测模式和表现为有效随机的不可预测模式。我们的分析进一步揭示,这种区分可以通过查询(query)在时间维度上的自相似程度来解释。针对可预测模式,我们进一步通过查询、键(key)和旋转位置嵌入(RoPE)的共同作用,对三个代表性案例进行了详细的数学分析。我们通过将 TAPPA 的见解应用于 KV 缓存压缩和 LLM 剪枝任务来验证其有效性。在这些任务中,受 TAPPA 启发的简单指标一致地比基准方法提升了性能。代码可在 https://github.com/MIRALab-USTC/LLM-TAPPA 获取。
查看 arXiv 页面查看 PDF

评论

Charlie_liCharlie_li
论文提交者

我们从统一的时间视角系统分析了注意力模式,发现嵌入时间自相似性和 RoPE 是流式、检索、季节性和重新访问注意力模式背后的关键因素。我们进一步应用时间序列分析方法研究注意力分数及其动态,这非常有意思。