DuaShepherd: 整合逐步正确性与潜在奖励以进行数学推理

发表
Yuanhao WuYuanhao Wu 提交
作者: Yuanhao WuYuanhao Wu, Juntong Song, Hanning Zhang, Tong Zhang, Cheng Niu

摘要

本文提出 DuaShepherd,这是一种新颖的奖励建模框架,它整合了正确性和潜力这两种互补的奖励信号,以增强大型语言模型(LLMs)的数学推理能力。基于正确性的信号侧重于识别分步错误,而基于潜力的信号则关注于达到正确最终答案的可能性。我们开发了一个自动化流程,用于构建包含这两种信号的大规模奖励建模数据集。我们探索了一种统一的多头架构,用于在多任务设置下训练这两个奖励模型,结果表明并行学习正确性和潜力都带来了益处。通过将这两种信号组合成复合概率,我们的模型在多个基准测试中取得了持续的性能提升。在 MATH500 和 ProcessBench 上的实证评估证实,这种组合奖励显著优于仅使用单一奖励类型训练的模型,在可比资源约束下实现了最先进的性能。
查看 arXiv 页面查看 PDF

评论

Yuanhao WuYuanhao Wu
论文作者
论文提交者

DuaShepherd:整合逐步正确性与潜在奖励以用于数学推理