⏶8
构建数学大语言模型的实用两阶段方案:利用SFT最大化准确率,以强化学习提升效率
发表
由
Inoue Yuichi 提交

作者: Hiroshi Yoshihara, Taiki Yamaguchi,
Yuichi Inoue

摘要
提升大语言模型(LLM)的数学推理能力,是推进人工智能能力发展的一项关键挑战。尽管监督微调(SFT)和强化学习(RL)是主流的训练范式,但如何系统性地结合这两种方法以最大化准确率和效率,在很大程度上仍未被探索。本文介绍了一种实用且高效的训练方案,该方案策略性地将扩展的SFT与来自在线推理的强化学习(GRPO)相结合。我们认为,这些方法扮演的是互补而非竞争的角色:一个延长的SFT阶段首先将模型的准确率推向极限,随后的GRPO阶段则在保持这一峰值性能的同时,显著提升令牌效率。我们的实验表明,将SFT延长多达10个轮次(epoch)对于实现性能突破至关重要,并且在该框架中,GRPO的主要作用是优化解答长度。我们方案的有效性,通过在多个具有挑战性的基准测试中的顶尖表现得到了严格验证,其中包括在严格无数据泄漏的人工智能数学奥林匹克竞赛(AIMO)中,于2200多支参赛队伍里取得了优异排名。这项工作为社区提供了一份经过实战检验的蓝图,用于开发兼具超高准确性和实用效率的最先进数学推理模型。为确保完全的可复现性并助力未来的研究,我们将在 https://github.com/analokmaus/kaggle-aimo2-fast-math-r1 开源我们的完整框架,包括所有代码、模型检查点和训练配置。
我们 Kaggle AIMO 2 工作中的论文
我们很高兴分享一篇新论文,该论文基于我们在 Kaggle 主办的 AI 数学奥林匹克竞赛 2 (AIMO 2) 比赛中的经验。
我们学到了什么
更长的 SFT 有帮助:对相同数据进行 10 个 epoch 的监督微调 (SFT) 提升了数学准确性。
GRPO 提高了效率:在 SFT 之后,GRPO(在线强化学习)在保持准确性的同时缩短了解决方案。
为什么它很重要
AIMO 2 是一个严格无信息泄露的基准测试,因此提高准确性非常困难。超过 2,200 个团队参加了比赛,许多团队都遇到了困难。由于我们的方法在这些严峻条件下奏效,我们相信它在实践中是有用的。
我们希望我们的开放资源能帮助其他人构建更好的数学推理器。非常欢迎反馈。
代码和检查点:https://github.com/analokmaus/kaggle-aimo2fast-math-r1