⏶30
格式和长度的替代信号:通过强化学习解决无标准答案的数学问题
发表
由
Jiejun Tan 提交

作者:
Rihui Xin, Han Liu,
Zecheng Wang, Yupeng Zhang,
Dianbo Sui, Xiaolin Hu, Bingning Wang

摘要
大语言模型在自然语言处理任务中取得了显著成功,强化学习在使其适应特定应用方面发挥着关键作用。然而,为训练大语言模型解决数学问题获取真实(ground truth)答案通常具有挑战性、成本高昂,有时甚至不可行。本研究深入探讨了利用格式和长度作为替代信号来训练大语言模型解决数学问题,从而绕过了对传统真实答案的需求。我们的研究表明,仅以格式正确性为中心的奖励函数在早期阶段可以产生与标准GRPO算法相当的性能改进。认识到仅凭格式奖励在后期阶段的局限性,我们纳入了基于长度的奖励。由此产生的GRPO方法,利用格式和长度的替代信号,在某些场景下不仅与依赖真实答案的标准GRPO算法的性能相当,甚至有所超越,使用7B基础模型在AIME2024上取得了40.0\%的准确率。通过系统的探索和实验,本研究不仅提供了一种训练大语言模型解决数学问题的实用解决方案,减少了对大量真实数据收集的依赖,还揭示了我们无标签方法成功的原因:基础模型就像一位已经掌握了数学和逻辑推理技能的优秀学生,但在试卷上表现不佳,它只需要养成良好的答题习惯就能在考试中取得优异成绩,换句话说,就是释放其已经具备的能力。
大语言模型在自然语言处理任务中取得了显著成功,其中强化学习在使其适应特定应用方面发挥了关键作用。然而,在数学问题解决中为训练大语言模型获取真实答案通常具有挑战性、成本高昂,有时甚至不可行。本研究深入探讨了利用格式和长度作为替代信号来训练用于解决数学问题的大语言模型,从而绕过了对传统真实答案的需求。本研究表明,仅以格式正确性为中心的奖励函数在早期阶段可以带来与标准 GRPO 算法相当的性能提升。认识到仅基于格式的奖励在后期阶段的局限性,我们引入了基于长度的奖励。利用格式-长度替代信号,由此产生的 GRPO 方法在某些场景下,不仅匹敌而且超越了依赖真实答案的标准 GRPO 算法的性能,使用 7B 基础模型在 AIME2024 上达到了 40.0% 的准确率。通过系统的探索和实验,本研究不仅提供了一个用于训练大语言模型解决数学问题并减少对大量真实数据收集依赖的实用解决方案,而且揭示了我们无标签方法成功的原因的本质:基础模型就像一个已经掌握了数学和逻辑推理技能,但在试卷上表现不佳的优秀学生,它只需要养成良好的答题习惯,就能在考试中取得优异成绩,换句话说,就是释放其已经拥有的能力。