处理能思考的奖励模型

发表
Muhammad KhalifaMuhammad Khalifa 提交
作者: Muhammad Khalifa, Rishabh Agarwal, Lajanugen Logeswaran, Jaekyeom Kim, Hao Peng, Moontae Lee, Honglak Lee, Lu Wang

摘要

逐步验证器——也称为过程奖励模型(PRM)——是测试阶段规模扩展的关键要素。PRM 需要步骤级监督,这使得它们的训练成本高昂。本研究旨在构建数据高效的 PRM,它们是以生成文本形式的步骤式奖励模型,通过生成验证思路链(CoT)来验证解决方案中的每个步骤。我们提出了 ThinkPRM,这是一种长思路链验证器,在比判别式 PRM 所需的过程标签少几个数量级的数据上进行了微调。我们的方法利用了长思路链模型固有的推理能力,并且在多个具有挑战性的基准测试中,仅使用 PRM800K 中 1% 的过程标签,就优于 LLM-as-a-Judge 和判别式验证器。具体来说,在 N中选最优和奖励引导搜索下,ThinkPRM 在 ProcessBench、MATH-500 和 AIME '24 上超越了基线。在 GPQA-Diamond 和 LiveCodeBench 的子集上进行的域外评估中,我们的 PRM 比使用完整 PRM800K 训练的判别式验证器分别高出 8% 和 4.5%。最后,在相同的 token 预算下,与 LLM-as-a-Judge 相比,ThinkPRM 更有效地扩展了验证计算能力,在 ProcessBench 的子集上性能优于它 7.2%。我们的工作突出了生成式长思路链 PRM 的价值,它们可以在验证过程中扩展测试阶段的计算能力,同时只需要最少的训练监督。我们的代码、数据和模型将在 https://github.com/mukhal/thinkprm 发布。
查看 arXiv 页面查看 PDF

评论

Muhammad KhalifaMuhammad Khalifa
论文提交者

总结:我们通过 ThinkPRM 解决了训练 PRM 所需的昂贵的步骤级监督的挑战,ThinkPRM 是一个仅用 8K 过程标签进行微调的生成式 PRM,使其能够使用长思维链验证推理。

Github 项目地址:https://github.com/mukhal/thinkprm

我们训练的验证器:ThinkPRM-14B, ThinkPRM-1.5B

用于训练验证器的 1K 合成验证思维链:https://huggingface.co/datasets/launch/thinkprm-1K-verification-cots