Cooper:在强化学习中协同优化大型语言模型的策略和奖励模型

发表
Yuchen YanYuchen Yan 提交
作者: HaiHaitao Hong, Yuchen YanYuchen Yan, Xingyu Wu, Guiyang Hou, Wenqi Zhang, Weiming Lu, Yongliang ShenYongliang Shen, Jun Xiao

摘要

大型语言模型(LLM)在推理任务中表现出卓越的性能,其中强化学习(RL)是增强其推理能力的关键算法。目前,存在两种主流奖励范式:基于模型的奖励和基于规则的奖励。然而,这两种方法都存在局限性:基于规则的奖励缺乏鲁棒性,而基于模型的奖励容易受到奖励黑客攻击。为了解决这些问题,我们提出了 Cooper(Co-optimizing Policy Model and Reward Model),一个联合优化策略模型和奖励模型的RL框架。Cooper利用基于规则的奖励在识别正确响应时的较高精度,并动态构建和选择正负样本对以持续训练奖励模型。这种设计增强了鲁棒性并减轻了奖励黑客攻击的风险。为了进一步支持Cooper,我们引入了一种混合注释策略,可以高效准确地生成奖励模型的训练数据。我们还提出了一种基于参考的奖励建模范式,其中奖励模型将参考答案作为输入。基于此设计,我们训练了一个名为VerifyRM的奖励模型,与同等规模的其他模型相比,该模型在VerifyBench上实现了更高的准确性。我们使用VerifyRM和Cooper进行强化学习。我们的实验表明,Cooper不仅缓解了奖励黑客攻击,而且提高了端到端RL性能,例如,在Qwen2.5-1.5B-Instruct上的平均准确率提高了0.54%。我们的发现表明,动态更新奖励模型是打击奖励黑客攻击的有效方法,为更好地将奖励模型集成到RL中提供了参考。
查看 arXiv 页面查看 PDF

评论

Yuchen YanYuchen Yan
论文作者
论文提交者

我们很高兴地介绍 Cooper,这是一种新的强化学习框架,它联合优化 LLM 的策略和奖励模型,将基于规则的精度与动态样本选择相结合,以增强鲁棒性并减少奖励欺骗。