⏶28
对于具有可验证奖励的 LLM 推理,随机策略评估就足够了
发表
由
haoran he 提交
作者: Haoran He, Yuxiao Ye, Qingpeng Cai,
Chen Hu, Binxing Jiao, Daxin Jiang, Ling Pan
摘要
AI 生成总结
ROVER 是一种极简强化学习方法,通过利用固定随机策略的 Q 值,绕过了复杂的策略迭代,在 LLM 数学推理方面取得了优越的性能和多样性。具有可验证奖励的强化学习(RLVR)已成为一种有前途的范式,用于提高大型语言模型(LLMs)的推理能力。当前的方法主要依赖于PPO和GRPO等策略优化框架,它们遵循广义策略迭代,即在评估当前策略的价值和根据评估改进策略之间交替进行。虽然有效,但它们经常遭受训练不稳定和多样性崩溃的问题,需要复杂的启发式技巧和仔细的调整。我们观察到,数学推理中的标准RLVR可以形式化为一种特殊的有限视界马尔可夫决策过程,具有确定性的状态转移、树状结构动态和二元终端奖励。尽管规模庞大,但其底层结构比开发流行的RL算法(例如PPO)的通用控制设置更简单,这表明现有方法中许多复杂的技术可以减少甚至省略。基于这一见解,我们证明了一个令人惊讶的结果:最优动作可以从固定均匀随机策略的Q函数中恢复,从而绕过了广义策略迭代循环及其相关的启发式方法。我们引入了用于多样化推理的随机策略评估(ROVER),将这一原理转化为一种实用且可扩展的LLM数学推理算法,这是一种极简但高效的RL方法,它从这些均匀策略Q值上的softmax中采样动作。ROVER在整个训练过程中保持多样性,允许持续探索多个有效路径。在多个基础模型和标准的数学推理基准测试中,ROVER在质量(pass@1提高8.2%,pass@256提高16.8%)和多样性(提高17.6%)方面均表现出色,尽管与强大的、复杂的方法相比,其简化程度是颠覆性的。
代码:https://github.com/tinnerhrhe/ROVER