⏶16

处理能思考的奖励模型

04月23日发表

04月25日由 Muhammad Khalifa 提交

作者: Muhammad Khalifa, Rishabh Agarwal, Lajanugen Logeswaran, Jaekyeom Kim, Hao Peng, Moontae Lee, Honglak Lee, Lu Wang

摘要

逐步验证器——也称为过程奖励模型（PRM）——是测试阶段规模扩展的关键要素。PRM 需要步骤级监督，这使得它们的训练成本高昂。本研究旨在构建数据高效的 PRM，它们是以生成文本形式的步骤式奖励模型，通过生成验证思路链（CoT）来验证解决方案中的每个步骤。我们提出了 ThinkPRM，这是一种长思路链验证器，在比判别式 PRM 所需的过程标签少几个数量级的数据上进行了微调。我们的方法利用了长思路链模型固有的推理能力，并且在多个具有挑战性的基准测试中，仅使用 PRM800K 中 1% 的过程标签，就优于 LLM-as-a-Judge 和判别式验证器。具体来说，在 N中选最优和奖励引导搜索下，ThinkPRM 在 ProcessBench、MATH-500 和 AIME '24 上超越了基线。在 GPQA-Diamond 和 LiveCodeBench 的子集上进行的域外评估中，我们的 PRM 比使用完整 PRM800K 训练的判别式验证器分别高出 8% 和 4.5%。最后，在相同的 token 预算下，与 LLM-as-a-Judge 相比，ThinkPRM 更有效地扩展了验证计算能力，在 ProcessBench 的子集上性能优于它 7.2%。我们的工作突出了生成式长思路链 PRM 的价值，它们可以在验证过程中扩展测试阶段的计算能力，同时只需要最少的训练监督。我们的代码、数据和模型将在 https://github.com/mukhal/thinkprm 发布。

查看 arXiv 页面查看 PDF

Muhammad Khalifa

论文提交者

总结：我们通过 ThinkPRM 解决了训练 PRM 所需的昂贵的步骤级监督的挑战，ThinkPRM 是一个仅用 8K 过程标签进行微调的生成式 PRM，使其能够使用长思维链验证推理。

Github 项目地址：https://github.com/mukhal/thinkprm

我们训练的验证器：ThinkPRM-14B, ThinkPRM-1.5B

用于训练验证器的 1K 合成验证思维链：https://huggingface.co/datasets/launch/thinkprm-1K-verification-cots

处理能思考的奖励模型

摘要

评论