⏶3

DuaShepherd: 整合逐步正确性与潜在奖励以进行数学推理

06月21日发表

06月27日由 Yuanhao Wu 提交

作者: Yuanhao Wu, Juntong Song, Hanning Zhang, Tong Zhang, Cheng Niu

摘要

本文提出 DuaShepherd，这是一种新颖的奖励建模框架，它整合了正确性和潜力这两种互补的奖励信号，以增强大型语言模型（LLMs）的数学推理能力。基于正确性的信号侧重于识别分步错误，而基于潜力的信号则关注于达到正确最终答案的可能性。我们开发了一个自动化流程，用于构建包含这两种信号的大规模奖励建模数据集。我们探索了一种统一的多头架构，用于在多任务设置下训练这两个奖励模型，结果表明并行学习正确性和潜力都带来了益处。通过将这两种信号组合成复合概率，我们的模型在多个基准测试中取得了持续的性能提升。在 MATH500 和 ProcessBench 上的实证评估证实，这种组合奖励显著优于仅使用单一奖励类型训练的模型，在可比资源约束下实现了最先进的性能。

查看 arXiv 页面查看 PDF

Yuanhao Wu

论文作者

论文提交者

DuaShepherd：整合逐步正确性与潜在奖励以用于数学推理

DuaShepherd: 整合逐步正确性与潜在奖励以进行数学推理

摘要

评论