注意力照亮大模型推理:预规划与锚定节奏赋能细粒度策略优化

发表
Yang Li (SJTU & SII)Yang Li (SJTU & SII) 提交
作者: Yang Li (SJTU & SII)Yang Li, Zhichen Dong, Yuhan Sun, Weixun Wang, Shaopan Xiong, YIJIALUOYijia Luo, Jiashun Liu, Han LuHan Lu, Jiamang Wang, Wenbo Su, Bo Zheng, Junchi Yan

摘要

AI 生成总结
对LLM中的注意力机制进行分析,以揭示推理模式,从而产生新颖的RL策略,通过关注关键标记来提高性能。
大型语言模型(LLMs)的推理模式仍然不透明,强化学习(RL)通常对整个生成过程应用统一的信用分配,模糊了关键步骤和常规步骤之间的区别。本研究将注意力机制定位为一种特权基底,它使得LLMs的内部逻辑变得清晰可辨,不仅仅是计算的副产品,而是推理本身的机制蓝图。我们首先区分局部和全局信息处理的注意力头,并揭示局部注意力头在对角线附近产生锯齿状模式,指示短语块,而全局注意力头则暴露了对未来标记具有广泛下游影响的标记。我们通过两个指标对其进行形式化:1)窗口平均注意力距离(Windowed Average Attention Distance),衡量裁剪窗口内向后注意力的程度;2)未来注意力影响(Future Attention Influence),量化标记作为其从后续标记接收的平均注意力的全局重要性。总而言之,这些信号揭示了一种反复出现的预规划-锚定机制,模型首先进行远距离上下文参考来生成一个初始标记,该标记紧随其后或与一个语义锚定标记同时出现,该锚定标记组织后续的推理。利用这些见解,我们引入了三种新颖的RL策略,它们动态地对关键节点(预规划标记、锚定标记及其时间耦合)进行有针对性的信用分配,并在各种推理任务中显示出一致的性能提升。通过将优化与模型的内在推理节奏对齐,我们的目标是将不透明的优化转化为一个可操作的、结构感知的过程,希望能为LLM推理更透明、更有效的优化提供一步潜在的进展。
查看 arXiv 页面查看 PDF

评论

Yang Li (SJTU & SII)Yang Li (SJTU & SII)
论文作者
论文提交者

🔥 核心摘要:
🔹 重新定义注意力机制的角色:注意力机制不仅是语言模型计算的副产品,更是一个揭示潜在推理逻辑的结构化蓝图。通过分析注意力模式,我们可以更清晰地捕捉模型在信息整合和序列生成中的“思考过程”,为目前仍是黑箱的推理过程提供一个可解释的框架,帮助模型决策过程更加透明。
🔹 颠覆强化学习算法:通过将优化目标与模型的内在推理节奏对齐,我们将传统上平均分配到 token 级别的序列奖励,转变为一种结构感知、动态分配的奖励机制。该机制能够动态识别并强化关键的推理步骤,驱动模型优化进入一个更透明、更精细、更高效的范式。

🧠 注意力机制揭示的关键推理模式
🔹 局部分块(Local Chunking):局部注意力呈现出典型的接近对角线的锯齿状模式,反映了模型在“分块”层级的密集内部构建。在分块边界,模型会进行长距离上下文检索(通常伴随更高的 token 熵),后续生成往往以此为参考进行引导。
🔹 全局锚点规划(Global Anchor Planning):全局注意力识别出稀疏但至关重要的核心锚定 token,这些 token 对后续 token 具有广泛的全局影响,并经常被后续 token 反向引用。实验表明,扰动这些锚点会显著改变后续的推理路径。
🔹 预规划-锚点耦合机制(Preplan-Anchor Coupling Mechanism):局部前瞻信号与全局锚点信号之间存在稳定的时间耦合,形成一种重复的推理节奏:模型首先生成一个引导性 token 作为“预规划”,随后锚定一个核心语义节点,从而系统地组织后续的推理过程。

⚙️ 强化学习算法创新:从统一奖励到结构感知信用分配
传统的序列级别奖励在 token 层面平均分配,忽略了推理结构中的关键节点。我们提出了一种基于注意力节奏的动态信用再分配机制,将优化过程与模型的内在推理结构对齐。具体而言,我们实施了三种策略:
🔹 预规划引导策略(Preplan Guidance Strategy):强化引导局部分块构建的 token,提升长距离上下文引用能力。
🔹 锚点增强策略(Anchor Enhancement Strategy):专注于优化具有全局影响力的语义锚点,增强推理规划能力。
🔹 耦合对齐策略(Coupling Alignment Strategy):强化预规划和锚点之间的时间协调性,促进结构化的推理过程。