StepWiser:用于更明智推理的逐步生成式判官

发表
Wenting ZhaoWenting Zhao 提交
作者: Wei Xiong, Wenting Zhao, Weizhe Yuan, Olga Golovneva, Tong Zhang, Jason Weston, Sainbayar SukhbaatarSainbayar Sukhbaatar

摘要

随着模型越来越多地利用多步推理策略来解决复杂问题,监督这些中间步骤的逻辑有效性已成为一个关键的研究挑战。过程奖励模型通过提供分步反馈来解决此问题,但当前方法存在两个主要缺点:它们通常作为分类器而没有提供解释,并且它们对静态数据集的监督微调的依赖限制了泛化能力。受近期进展的启发,我们将分步奖励建模从分类任务重构为推理任务本身。因此,我们提出了一个生成式判断器,该判断器对策略模型的推理步骤(即元推理)进行推理,在给出最终判决之前输出思考令牌。我们的模型 StepWiser 通过强化学习训练,并使用滚动的相对结果。我们表明,它提供了(i)比现有方法更好的中间步骤判断准确性;(ii)可在训练时用于改进策略模型;以及(iii)在推理时改进搜索。
查看 arXiv 页面查看 PDF

评论

Wenting ZhaoWenting Zhao
论文提交者

🪜隆重介绍:StepWiser🦉

📝: http://arxiv.org/abs/2508.19229

  • 将逐步奖励建模重构为一项推理任务:输出思维链 (CoT) + 判断。

  • 使用 RL 通过 rollout 的相对结果进行训练。

结果:

(1) 在 ProcessBench 上达到 SOTA 性能!

(2) 在训练时改进策略。

(3) 改进推理时搜索。