探索性推理:一个熵视角

发表
Daixuan ChengDaixuan Cheng 提交
作者: Daixuan ChengDaixuan Cheng, Shaohan Huang, Xuekai Zhu, Bo Dai, Wayne Xin Zhao, Zhenliang Zhang, Furu Wei

摘要

强化学习(RL)中,平衡探索与利用是一个核心目标。尽管在增强语言模型(LM)推理方面取得了最新进展,但大多数方法倾向于利用,并日益遭遇性能瓶颈。在这项工作中,我们重新审视了熵——RL中探索的信号——并探讨了它与LM中探索性推理的关系。通过实证分析,我们发现高熵区域与三种探索性推理行为之间存在强烈的正相关:(1) 决定或连接逻辑步骤的关键令牌,(2) 自我验证和纠正等反思性行为,以及 (3) 基础LM未充分探索的稀有行为。受此启发,我们对标准RL进行了一个最小的修改,仅用一行代码:用一个基于熵的项来增强优势函数。与通过促进不确定性来鼓励探索的传统最大熵方法不同,我们通过促进更长、更深度的推理链来鼓励探索。值得注意的是,即使在评估K值极大的情况下,我们的方法在Pass@K指标(LM推理能力的上界估计器)上取得了显著的提升,推动了LM推理的边界。
查看 arXiv 页面查看 PDF
探索性推理:一个熵视角
探索性推理:一个熵视角

评论

Daixuan ChengDaixuan Cheng
论文作者
论文提交者

这项工作从熵的视角,研究了带探索的推理,以鼓励语言模型中更长、更深入的推理链。

- 我们调查并揭示了语言模型中熵与探索性推理之间的强相关性,表明关键词元、反思性行为和罕见行为在高熵下出现。
- 我们提出了一种最小但有效的方法,通过增加一个裁剪的、梯度分离的熵项来增强标准强化学习优势,通过促进更长、更深入的推理链来鼓励探索,同时保持原始的策略优化方向。
- 我们在主流强化学习算法 GRPO 和 PPO 上验证了我们的方法,在 Pass@K 指标上取得了显著改进,并推动了语言模型推理能力的边界。

Rongkai LiuRongkai Liu

干得好!

Daixuan ChengDaixuan Cheng
论文作者
论文提交者

谢谢!