超越正确性:通过强化学习训练来协调过程与结果奖励

发表
Chenlu YeChenlu Ye 提交
作者: Chenlu Ye, Zhou Yu, Ziji Zhang, Hao Chen, Narayanan Sadagopan, Jing Huang, Tong Zhang, Anurag Beniwal

摘要

可验证奖励的强化学习(RLVR)已成为数学推理任务的主导范式,在推理能力上提供了稳定的改进。然而,RLVR中的结果奖励模型(ORM)粒度太粗,无法区分正确答案中的推理缺陷或错误答案中的有效推理。这种粒度不足会引入大量嘈杂和误导性的梯度,阻碍了推理过程质量的进一步提高。虽然过程奖励模型(PRM)为中间步骤提供了细粒度的指导,但它们经常出现不准确的情况,并且容易受到奖励操纵。 为了解决这个困境,我们提出了PRocess cOnsistency Filter(PROF),一种有效的数据处理策展方法,它能够协调嘈杂、细粒度的过程奖励与准确、粗粒度的结果奖励。PROF不是简单地将PRM和ORM混合到目标函数中(arXiv:archive/2506.18896),而是通过一致性驱动的样本选择来利用它们互补的优势。我们的方法保留了平均过程值较高的正确响应,以及平均过程值较低的错误响应,同时保持了正/负训练样本的平衡。大量实验表明,我们的方法不仅比混合方法将最终准确率提高了4%以上,而且还增强了中间推理步骤的质量。代码和训练配方可在https://github.com/Chenluye99/PROF获取。
查看 arXiv 页面查看 PDF

评论

Chenlu YeChenlu Ye
论文提交者

论文:https://arxiv.org/pdf/2509.03403

代码:即将发布于 https://github.com/Chenluye99/PROF