⏶3
DuaShepherd: 整合逐步正确性与潜在奖励以进行数学推理
发表
由
Yuanhao Wu 提交
作者:
Yuanhao Wu, Juntong Song, Hanning Zhang, Tong Zhang, Cheng Niu
摘要
本文提出 DuaShepherd,这是一种新颖的奖励建模框架,它整合了正确性和潜力这两种互补的奖励信号,以增强大型语言模型(LLMs)的数学推理能力。基于正确性的信号侧重于识别分步错误,而基于潜力的信号则关注于达到正确最终答案的可能性。我们开发了一个自动化流程,用于构建包含这两种信号的大规模奖励建模数据集。我们探索了一种统一的多头架构,用于在多任务设置下训练这两个奖励模型,结果表明并行学习正确性和潜力都带来了益处。通过将这两种信号组合成复合概率,我们的模型在多个基准测试中取得了持续的性能提升。在 MATH500 和 ProcessBench 上的实证评估证实,这种组合奖励显著优于仅使用单一奖励类型训练的模型,在可比资源约束下实现了最先进的性能。
DuaShepherd:整合逐步正确性与潜在奖励以用于数学推理