⏶34
奖励推理模型
发表
由
Li Dong 提交
作者: Jiaxin Guo,
Zewen Chi,
Li Dong, Qingxiu Dong,
Xun Wu, Shaohan Huang, Furu Wei

摘要
奖励模型在引导大型语言模型产生符合人类期望的输出方面起着关键作用。然而,如何有效利用测试时计算来提升奖励模型性能仍然是一个开放的挑战。在这项工作中,我们引入了奖励推理模型 (RRM),该模型专门设计用于在生成最终奖励之前执行深思熟虑的推理过程。通过思维链推理,RRM 利用额外的测试时计算来处理那些适当奖励不立即显而易见的复杂查询。为了开发 RRM,我们实现了一个强化学习框架,该框架无需将显式推理轨迹作为训练数据,即可培养自进化的奖励推理能力。实验结果表明,RRM 在不同领域的奖励建模基准上取得了卓越的性能。值得注意的是,我们展示了 RRM 可以自适应地利用测试时计算来进一步提高奖励准确性。预训练的奖励推理模型可在 https://huggingface.co/Reward-Reasoning 获取。

奖励模型在引导大语言模型 (LLM) 生成符合人类预期的输出方面起着关键作用。然而,如何有效利用测试时的计算资源来提升奖励模型性能,仍然是一个未解决的挑战。在这项工作中,我们引入了奖励推理模型 (RRM),这些模型经过专门设计,用于在生成最终奖励之前执行深思熟虑的推理过程。通过思维链推理 (CoT),RRM 在适当奖励不立即显而易见的复杂查询中利用额外的测试时计算资源。为了开发 RRM,我们实现了一个强化学习框架 (RL),该框架无需显式推理轨迹作为训练数据即可培养自进化的奖励推理能力。实验结果表明,RRM 在跨越不同领域的奖励建模基准上取得了卓越性能。值得注意的是,我们展示了 RRM 可以自适应地利用测试时计算资源来进一步提高奖励准确性。