⏶19
StepWiser:用于更明智推理的逐步生成式判官
发表
由
Wenting Zhao 提交
作者: Wei Xiong, Wenting Zhao, Weizhe Yuan, Olga Golovneva, Tong Zhang, Jason Weston,
Sainbayar Sukhbaatar
摘要
随着模型越来越多地利用多步推理策略来解决复杂问题,监督这些中间步骤的逻辑有效性已成为一个关键的研究挑战。过程奖励模型通过提供分步反馈来解决此问题,但当前方法存在两个主要缺点:它们通常作为分类器而没有提供解释,并且它们对静态数据集的监督微调的依赖限制了泛化能力。受近期进展的启发,我们将分步奖励建模从分类任务重构为推理任务本身。因此,我们提出了一个生成式判断器,该判断器对策略模型的推理步骤(即元推理)进行推理,在给出最终判决之前输出思考令牌。我们的模型 StepWiser 通过强化学习训练,并使用滚动的相对结果。我们表明,它提供了(i)比现有方法更好的中间步骤判断准确性;(ii)可在训练时用于改进策略模型;以及(iii)在推理时改进搜索。
🪜隆重介绍:StepWiser🦉
📝: http://arxiv.org/abs/2508.19229
将逐步奖励建模重构为一项推理任务:输出思维链 (CoT) + 判断。
使用 RL 通过 rollout 的相对结果进行训练。
结果:
(1) 在 ProcessBench 上达到 SOTA 性能!
(2) 在训练时改进策略。
(3) 改进推理时搜索。