无形之索:为何RLVR可能无法摆脱其根源

发表
Fang WuFang Wu 提交
作者: Fang Wu, Weihao XUANWeihao Xuan, Ximing Lu, Zaid Harchaoui, Yejin Choi

摘要

大型推理模型(large reasoning models)的最新进展表明,可验证奖励强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)是一种有前景的方法,可增强AI的能力,尤其是在解决复杂逻辑任务方面。然而,目前尚不清楚RLVR是真正拓展了模型的推理边界,还是仅仅为了提高精度而放大了基础模型已经知道的高奖励输出。本研究提出了一项理论和实证调查,为RLVR的潜在局限性提供了新的见解。首先,我们提出了一种新的理论视角,即RLVR受限于基础模型的支持(无法采样初始概率为零的解决方案),并作为一种保守的重新加权机制运行,这可能会限制完全原创解决方案的发现。我们还发现了一种熵-奖励权衡:尽管RLVR能够可靠地提高精度,但它可能会逐渐缩小探索范围,并可能忽视正确但代表性不足的解决方案。大量实证实验验证了,尽管RLVR始终能提高pass@1(一种评估指标),但在更大的采样预算下,经验支持的收缩通常超过了经验支持的扩展,未能恢复基础模型先前可以获取的正确答案。有趣的是,我们还观察到,尽管RLVR有时会增加词元级熵(token-level entropy),导致每个生成步骤的不确定性增加,但答案级熵(answer-level entropy)却下降了,这表明这些看似不确定的路径最终收敛到一组更小的不同答案。综合来看,这些发现揭示了RLVR在拓展推理视野方面的潜在局限性。打破这种“无形束缚”可能需要未来的算法创新,例如明确的探索机制或将概率质量注入代表性不足的解决方案区域的混合策略。
查看 arXiv 页面查看 PDF

评论

Fang WuFang Wu
论文提交者

🚀 新论文发布:《强化学习与可验证奖励的无形束缚》

强化学习与可验证奖励 (RLVR) 已成为提高大型模型推理准确性的强大工具。但它真的扩展了推理能力,还是仅仅重新赋予了基础模型已知信息以权重?

我们的新研究通过理论和大规模实验探讨了这个问题。我们表明,RLVR 在基础模型的支持范围内运作——无法达到初始概率为零的新颖完成。虽然它提高了精确度(例如,pass@1),但这伴随着代价:熵-奖励权衡常常导致探索崩溃,缩小了模型的有效解决方案空间。

我们还发现了一个惊人的现象:RLVR 可以增加令牌级别的熵(更多的局部不确定性),同时减少答案级别的熵(更少的全局多样性)——揭示了对生成多样性的“无形束缚”。

🧠 如果我们要突破当前的推理限制,我们可能需要明确的探索、促进多样性的目标或混合微调策略。

zzhzzh

感谢您在这篇论文中进行的创新工作和宝贵贡献。关于附录 A1 中定理 2.2 证明的归纳步骤,我们恳请您就一个微妙之处提供进一步的澄清:从“y* 不贡献梯度”到“更新后的模型满足 πθ'(y*|x) = 0”的推导并非显而易见。您能否更详细地解释一下这种逻辑联系?