⏶130
超越二八法则:高熵少数词元驱动LLM推理中的有效强化学习
发表
由
Shenzhi Wang 提交

作者:
Shenzhi Wang,
Le Yu, Chang Gao,
Chujie Zheng, Shixuan Liu, Rui Lu, Kai Dang,
Xionghui Chen, Jianxin Yang,
Zhenru Zhang,
Yuqiong Liu, An Yang, Andrew Zhao, Yang Yue, Shiji Song,
Bowen Yu, Gao Huang,
Junyang Lin



摘要
可验证奖励强化学习 (RLVR) 已成为一种强大的方法,用于增强大型语言模型 (LLM) 的推理能力,但其内在机制尚未被充分理解。在这项工作中,我们通过令牌熵模式的全新视角,对 RLVR 进行了开创性探索,全面分析了不同令牌如何影响推理性能。通过检查思维链 (CoT) 推理中的令牌熵模式,我们观察到只有一小部分令牌表现出高熵,而这些令牌充当关键分叉点,引导模型走向不同的推理路径。此外,研究熵模式在 RLVR 训练期间如何演变揭示,RLVR 在很大程度上遵循基础模型的熵模式,主要调整高熵令牌的熵值。这些发现强调了高熵令牌(即分叉令牌)对 RLVR 的重要性。我们最终通过将策略梯度更新限制在分叉令牌上来改进 RLVR,并揭示了一个超越80/20法则的发现:仅使用20%的令牌,在Qwen3-8B基础模型上保持与全梯度更新相当的性能,并显著超越Qwen3-32B(在AIME'25上提升11.04,在AIME'24上提升7.71)和Qwen3-14B(在AIME'25上提升4.79,在AIME'24上提升5.21)基础模型上的全梯度更新,凸显了强大的扩展趋势。相比之下,仅在80%的最低熵令牌上进行训练会导致性能显著下降。这些发现表明,RLVR的有效性主要源于优化决定推理方向的高熵令牌。总体而言,我们的研究结果强调了通过令牌熵视角理解RLVR的潜力,并通过利用高熵少数令牌来优化RLVR,以进一步提高LLM的推理能力。
项目页面:https://shenzhi-wang.github.io/high-entropy-minority-tokens-rlvr
🚀 在这项工作中,我们开创性地通过代币熵模式的新视角对RLVR进行探索,全面分析了不同代币如何影响推理性能。
😆 核心观点:
CoT中的熵模式。 在CoT中,大多数代币以低熵生成,而只有一小部分表现出高熵。这些高熵的少数代币通常在推理过程中充当“分叉”,引导模型走向不同的推理路径。在这些关键的分叉代币处保持高熵有利于推理性能。
RLVR期间CoT中熵模式的演变。 在RLVR训练期间,推理模型在很大程度上保留了基础模型的熵模式,仅显示出渐进和微小的变化。RLVR主要调整高熵代币的熵,而低熵代币的熵仅在狭窄范围内波动。
高熵少数代币几乎驱动了RLVR期间所有的推理性能提升,而低熵多数代币贡献甚微,甚至可能阻碍性能。一个可能的解释是,在性能收敛之前,一部分(在我们实验中约为20%)高熵代币促进了探索,而低熵代币提供的益处微乎其微,甚至可能阻碍探索。
更多讨论和见解。 基于上述见解,我们进一步讨论了 (i) 高熵少数代币为何可能是监督微调(SFT)倾向于记忆而RL倾向于泛化的原因,(ii) 先验知识和可读性要求如何塑造了LLM CoT中与传统RL轨迹不同的熵模式,以及 (iii) clip-higher相对于熵奖励(entropy bonus)在RLVR中的优势。