⏶27
ReasonFlux-PRM:大型语言模型中长链式思考推理的轨迹感知PRM
发表
由
Ling Yang 提交

作者: Jiaru Zou, Ling Yang, Jingwen Gu,
Jiahao Qiu,
Ke Shen, Jingrui He, Mengdi Wang
摘要
过程奖励模型(PRM)最近已成为一种强大的框架,用于监督大语言模型(LLM)中的中间推理步骤。以往的PRM主要基于模型最终输出响应进行训练,难以稳健地评估中间思维轨迹,尤其是在像Deepseek-R1这样的前沿推理模型生成的轨迹-响应输出的新兴环境中。在这项工作中,我们引入了ReasonFlux-PRM,一种新颖的轨迹感知型PRM,专门用于评估轨迹-响应类型的推理痕迹。ReasonFlux-PRM融合了步骤级和轨迹级监督,能够实现与结构化思维链数据对齐的细粒度奖励分配。我们将ReasonFlux-PRM调整为支持离线和在线设置下的奖励监督,包括:(i) 为下游更小模型的监督微调选择高质量模型蒸馏数据;(ii) 为强化学习期间的策略优化提供密集的过程级奖励;以及 (iii) 实现奖励引导的Best-of-N测试时扩展。在AIME、MATH500和GPQA-Diamond等挑战性下游基准上的经验结果表明,ReasonFlux-PRM-7B选择的数据质量高于强大的PRM(例如Qwen2.5-Math-PRM-72B)和人工策划的基线。此外,我们衍生的ReasonFlux-PRM-7B带来了持续的性能改进,在监督微调中平均增益12.1%,在强化学习中平均增益4.5%,在测试时扩展中平均增益6.3%。我们还发布了高效的ReasonFlux-PRM-1.5B,用于资源受限的应用和边缘部署。项目:https://github.com/Gen-Verse/ReasonFlux
代码: https://github.com/Gen-Verse/ReasonFlux
模型: https://huggingface.co/collections/Gen-Verse/reasonflux-prm-68463c73cf1c6a0ec6fafeb5