⏶19

StepWiser：用于更明智推理的逐步生成式判官

08月26日发表

08月28日由 Wenting Zhao 提交

作者: Wei Xiong, Wenting Zhao, Weizhe Yuan, Olga Golovneva, Tong Zhang, Jason Weston, Sainbayar Sukhbaatar

摘要

随着模型越来越多地利用多步推理策略来解决复杂问题，监督这些中间步骤的逻辑有效性已成为一个关键的研究挑战。过程奖励模型通过提供分步反馈来解决此问题，但当前方法存在两个主要缺点：它们通常作为分类器而没有提供解释，并且它们对静态数据集的监督微调的依赖限制了泛化能力。受近期进展的启发，我们将分步奖励建模从分类任务重构为推理任务本身。因此，我们提出了一个生成式判断器，该判断器对策略模型的推理步骤（即元推理）进行推理，在给出最终判决之前输出思考令牌。我们的模型 StepWiser 通过强化学习训练，并使用滚动的相对结果。我们表明，它提供了（i）比现有方法更好的中间步骤判断准确性；（ii）可在训练时用于改进策略模型；以及（iii）在推理时改进搜索。

查看 arXiv 页面查看 PDF

Wenting Zhao

论文提交者

🪜隆重介绍：StepWiser🦉

📝: http://arxiv.org/abs/2508.19229

将逐步奖励建模重构为一项推理任务：输出思维链 (CoT) + 判断。
使用 RL 通过 rollout 的相对结果进行训练。

结果：

(1) 在 ProcessBench 上达到 SOTA 性能！

(2) 在训练时改进策略。

(3) 改进推理时搜索。

StepWiser：用于更明智推理的逐步生成式判官

摘要

评论