⏶3
错误类型划分以获得更智能的奖励:使用错误感知的分层监督改进过程奖励模型
发表
由
Soujanya Poria 提交

作者:
Tej Deep Pala, Panshul Sharma, Amir Zadeh, Chuan Li,
Soujanya Poria

摘要
大型语言模型 (LLM) 容易产生幻觉,尤其是在多跳和推理密集型任务(如数学问题解决)中。结果奖励模型只验证最终答案,而过程奖励模型 (PRM) 对每个中间步骤进行评分,以引导生成连贯的解决方案。我们引入了 PathFinder-PRM,这是一种新颖的分层、错误感知判别性 PRM,它首先对每个步骤的数学和一致性错误进行分类,然后结合这些细粒度信号来估计步骤的正确性。为了训练 PathFinder-PRM,我们通过用三维步骤级标签丰富人工标注的 PRM800K 语料库和 RLHFlow Mistral 轨迹,构建了一个包含 40 万样本的数据集。在 PRMBench 上,PathFinder-PRM 实现了新的最先进的 PRMScore 67.7,超过了先前的最佳结果 (65.5),同时使用了 3 倍的数据量。当应用于奖励引导的贪婪搜索时,我们的模型取得了 prm@8 48.3,比最强的基线提高了 1.5 个点。这些结果表明,解耦的错误检测和奖励估计不仅提高了细粒度的错误检测能力,而且还大大改善了端到端、奖励引导的数学推理,同时提高了数据效率。



在 PRMBench 和 ProcessBench 上表现出色。
https://github.com/declare-lab/PathFinder-PRM