SCAN: 用于鲁棒过程奖励学习的自去噪蒙特卡洛标注

发表
DingDing 提交
作者: DingYuyang Ding, Xinyu ShiXinyu Shi, Juntao Li, Xiaobo LiangXiaobo Liang, Zhaopeng TuZhaopeng Tu, Min Zhang

摘要

AI 生成总结
SCAN,一个自去噪的蒙特卡罗框架,使用合成数据提高了 PRM 性能,取得了高 F1 分数,并超越了人类标注的基线。
过程奖励模型(PRMs)提供细粒度的、步骤级别的评估,有助于大型语言模型(LLMs)进行更深入的推理过程,在数学推理等复杂任务中被证明是有效的。然而,由于人工标注数据的成本高昂且可扩展性有限,开发 PRMs 充满挑战。来自蒙特卡洛(MC)估计的合成数据是一个有希望的替代方案,但其噪声比很高,这可能导致过拟合并阻碍大规模训练。在这项工作中,我们对 MC 估计的合成数据中的噪声分布进行了初步研究,发现标注模型由于其标注能力的限制,倾向于低估和高估步骤的正确性。基于这些见解,我们提出了自去噪蒙特卡洛标注(SCAN),一个高效的数据合成和噪声容忍学习框架。我们的主要发现表明:(1)即使是轻量级模型(例如,1.5B 参数)也可以通过自去噪策略生成高质量的标注,从而使 PRMs 仅用常规 MC 估计所需推理成本的 6% 就能实现卓越的性能。(2)通过我们强大的学习策略,PRMs 可以有效地从这种弱监督中学习,在 ProcessBench 中取得了 39.2 的 F1 分数提升(从 19.9 到 59.1)。尽管仅使用了紧凑的合成数据集,我们的模型仍然超越了强大的基线,包括那些在大型人工标注数据集(如 PRM800K)上训练的模型。此外,随着合成数据的扩展,性能持续提高,这突显了 SCAN 在可扩展、成本效益高且鲁棒的 PRM 训练方面的潜力。
查看 arXiv 页面查看 PDF

评论

DingDing
论文作者
论文提交者

我们提出了 Self-Denoising Monte Carlo Annotation (SCAN),一个高效的 Process Reward Model (PRM) 数据合成和噪声容忍学习框架。