预训练策略判别器是通用奖励模型

发表
Yicheng ZouYicheng Zou 提交
作者: Shihan DouShihan Dou, Shichun LiuShichun Liu, Yuming YangYuming Yang, Yicheng ZouYicheng Zou, Yunhua Zhou, Shuhao Xing, Chenhao Huang, Qiming Ge, Demin Song, Haijun Lv, Songyang Gao, Chengqi Lv, Enyu Zhou, Honglin Guo, Zhiheng Xi, Wenwei Zhang, Qipeng Guo, Qi Zhang, Xipeng Qiu, Xuanjing HuangXuanjing Huang, Tao Gui, Kai Chen

摘要

我们将奖励建模公式化为策略判别器,从而提供了一种新颖的视角,它量化了两种策略之间的差异以生成奖励信号,从而引导训练策略趋向具有期望行为的目标策略。基于这一概念性见解,我们提出了一种名为策略判别学习(Policy Discriminative Learning, POLAR)的可扩展预训练方法,该方法训练奖励模型(RM)以识别相同策略并区分不同策略。与依赖绝对偏好的传统奖励建模方法不同,POLAR捕获了一个策略与任意目标策略之间的相对差异,这是一个可扩展的、高级的优化目标,适用于建模通用排序关系。利用POLAR预训练范式,我们提出了一系列参数规模从1.8B到7B的RM。实证结果表明,POLAR显著优于传统的非预训练方法,显著提升了RM性能。例如,与SOTA基线相比,POLAR-7B在STEM任务上的偏好准确率从54.8%提高到81.0%,在创意写作任务上从57.9%提高到85.5%。POLAR在使用强化微调(Reinforcement Fine-tuning, RFT)的RLHF中也表现出强大的泛化能力,提供了可靠的奖励信号并显著提升了策略性能——在20个基准测试中,将LLaMa3.1-8B的平均性能从47.36%提高到56.33%,将Qwen2.5-32B的平均性能从64.49%提高到70.47%。此外,扩展实验揭示了计算与性能之间清晰的幂律关系,线性相关系数接近0.99。其令人印象深刻的性能、强大的泛化能力和可扩展性表明POLAR是开发通用且强大的奖励模型的一个有前途的方向。
查看 arXiv 页面查看 PDF

评论

Yicheng ZouYicheng Zou
论文作者
论文提交者

🚀 推出 POLAR:将奖励模型带入预训练新时代!

告别泛化能力差的奖励模型! POLAR (Policy Discriminative Learning) 是一种开创性的预训练范式,它训练奖励模型以区分策略分布,可轻松扩展并消除了对人类偏好数据的严重依赖!

🏆 专为强化微调 (RFT) 量身定制! POLAR 基于真实情况分配奖励,无缝集成到 RFT 框架中,并在通用任务中实现最先进的 RL 性能!

论文:https://arxiv.org/pdf/2507.05197

模型:https://huggingface.co/internlm/POLAR-7B

代码:https://github.com/InternLM/POLAR