通过强化学习实现大型语言模型的涌现式分层推理

发表
Haozhe WangHaozhe Wang 提交
作者: Haozhe Wang, XuQixinQixin Xu, Che Liu, Junhong Wu, Fangzhen Lin, Wenhu Chen

摘要

AI 生成总结
强化学习通过涉及程序正确性和战略规划的两阶段过程增强了大型语言模型的推理能力,其中 HICRA 算法侧重于高影响力的规划 token 以提高性能。
强化学习 (RL) 在增强大型语言模型 (LLM) 的复杂推理能力方面已被证明非常有效,但驱动这种成功的底层机制仍然很大程度上不透明。我们的分析表明,“顿悟时刻”、“长度缩放”和熵动态等令人困惑的现象并非孤立事件,而是新兴推理层次结构的标志,类似于人类认知中将高级战略规划与低级程序执行分离。我们揭示了一个引人注目的两阶段动态:最初,模型受限于程序正确性,必须提高其低级技能。然后,学习瓶颈会决定性地转移,性能的提升是由高级战略规划的探索和掌握所驱动的。这一见解暴露了像 GRPO 这样的主流 RL 算法的一个核心低效率,这些算法非选择性地施加优化压力,并稀释了所有 token 的学习信号。为了解决这个问题,我们提出了分层感知信用分配 (HICRA),一种将优化工作集中在高影响力规划 token 上的算法。HICRA 的性能显著优于强大的基线,证明了关注这个战略瓶颈是解锁高级推理的关键。此外,我们验证了语义熵是一种比误导性指标(如 token 级别熵)更优越的衡量战略探索的指南。
查看 arXiv 页面查看 PDF

评论

Haozhe WangHaozhe Wang
论文提交者

本文认为,强化学习 (RL) 通过一种新兴的两阶段推理层级来改善推理:首先,模型巩固低级别执行,然后学习重点关注探索高级规划,而这才是推理持续改进的真正驱动力。

利用这一洞察,本文为“顿悟时刻”、“长度缩放”以及基础模型和任务之间不同的熵动力学等不透明概念提供了一个统一的解释。本文引入了层级感知信用分配,将训练精力集中在高影响力的规划 token 上,在跨模态的强大基线之上取得了显著的改进。