GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning

发表
Yao ZhangYao Zhang 提交
作者: Yao Zhang, Yu Wu, Haowei Zhang, Weiguo Li, Haokun Chen, Jingpei Wu, Guohao Li, Zhen Han, Volker Tresp

摘要

AI 生成总结
GroundedPRM 使用蒙特卡洛树搜索和外部验证,通过更少、更高质量的标注来改进大型语言模型的多步推理。
过程奖励模型 (PRM) 旨在通过监督中间步骤和识别错误来改进大型语言模型 (LLM) 的多步推理。然而,由于缺乏可扩展、高质量的注释,构建有效的 PRM 仍然具有挑战性。 现有方法依赖于昂贵的人工标注、易产生幻觉的基于 LLM 的自我评估,或蒙特卡罗 (MC) 估计,该估计仅从运行结果推断步骤质量,并且由于信用错误分配而经常引入有噪声、 不一致的监督。这些问题导致三个核心限制:奖励有噪声、事实保真度低以及与步骤级 推理目标不匹配。为了解决这些挑战,我们引入了 GroundedPRM,一个用于自动过程监督 的树引导和保真度感知框架。为了减少奖励噪声并实现精细的信用分配,我们通过蒙特卡罗 树搜索 (MCTS) 构建结构化推理路径。为了消除幻觉监督,我们使用外部工具验证每个中间 步骤,提供执行基础的正确性信号。为了结合步骤级验证和全局结果评估,我们设计了一 种混合奖励聚合机制,该机制将基于工具的验证与 MCTS 派生的反馈相结合。 最后,我们将奖励信号格式化为增强了推理、生成性的结构,以提高可解释性并与指令 微调的 LLM 兼容。GroundedPRM 仅在 40K 个自动标注样本上进行训练,仅占使用自动 标注监督训练的最佳 PRM 所用数据量的 10%。尽管如此,它在 ProcessBench 上的平均性能 相对提高了 26%。当用于奖励引导的贪婪搜索时,GroundedPRM 的性能甚至优于使用人工 标注监督训练的 PRM,提供了一条可扩展且可验证的高质量过程级推理途径。
查看 arXiv 页面查看 PDF

评论

Yao ZhangYao Zhang
论文提交者

GroundedPRM 是一个树引导、保真度感知的过程奖励模型,它融合了 MCTS 推理路径和基于工具的验证,以产生精确、可解释且可扩展的过程监督。它仅在 40K 个自动标记样本上进行训练,在 ProcessBench 上实现了高达 26% 的性能提升,甚至超越了人工标记的 PRM。