RM-R1:奖励建模即推理

发表
Gaotang LiGaotang Li 提交
作者: Xiusi ChenXiusi Chen, Gaotang LiGaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru WangHongru Wang, Yu Zhang, Denghui ZhangDenghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji

摘要

奖励建模对于使大型语言模型 (LLMs) 与人类偏好对齐至关重要,尤其是通过人类反馈强化学习 (RLHF)。为了提供准确的奖励信号,奖励模型 (RM) 在分配分数或判断之前,应该能够激发深度思考并进行可解释的推理。然而,现有的 RM 要么产生不透明的标量分数,要么直接生成对偏好答案的预测,这使得它们难以整合自然语言的评论,从而缺乏可解释性。受最近在推理密集型任务上长链式思考 (CoT) 进展的启发,我们假设并验证了将推理能力整合到奖励建模中可以显著增强 RM 的可解释性和性能。在这项工作中,我们引入了一种新的生成式奖励模型类别——推理奖励模型 (ReasRMs)——它将奖励建模公式化为推理任务。我们提出了一种面向推理的训练流程,并训练了一个 ReasRM 系列模型,命名为 RM-R1。训练包含两个关键阶段:(1) 高质量推理链的蒸馏,和 (2) 具有可验证奖励的强化学习。RM-R1 通过自生成推理轨迹或针对聊天的评分细则,并对照它们评估候选回复,从而改进 LLM 的输出。实证结果表明,我们的模型在多个综合奖励模型基准测试中,生成式 RM 达到了最先进或接近最先进的性能,比大得多的开源模型(例如 Llama3.1-405B)和专有模型(例如 GPT-4o)表现更好,最高提升达 13.8%。除了最终性能,我们还进行了深入的实证分析,以理解成功训练 ReasRM 的关键要素。为了促进未来的研究,我们将在 https://github.com/RM-R1-UIUC/RM-R1 发布六个 ReasRM 模型以及代码和数据。
查看 arXiv 页面查看 PDF

评论

Gaotang LiGaotang Li
论文作者
论文提交者

rm-r1-1.png