⏶8

构建数学大语言模型的实用两阶段方案：利用SFT最大化准确率，以强化学习提升效率

07月11日发表

07月15日由 Inoue Yuichi 提交

作者: Hiroshi Yoshihara, Taiki Yamaguchi, Inoue Yuichi Yuichi Inoue

摘要

提升大语言模型（LLM）的数学推理能力，是推进人工智能能力发展的一项关键挑战。尽管监督微调（SFT）和强化学习（RL）是主流的训练范式，但如何系统性地结合这两种方法以最大化准确率和效率，在很大程度上仍未被探索。本文介绍了一种实用且高效的训练方案，该方案策略性地将扩展的SFT与来自在线推理的强化学习（GRPO）相结合。我们认为，这些方法扮演的是互补而非竞争的角色：一个延长的SFT阶段首先将模型的准确率推向极限，随后的GRPO阶段则在保持这一峰值性能的同时，显著提升令牌效率。我们的实验表明，将SFT延长多达10个轮次（epoch）对于实现性能突破至关重要，并且在该框架中，GRPO的主要作用是优化解答长度。我们方案的有效性，通过在多个具有挑战性的基准测试中的顶尖表现得到了严格验证，其中包括在严格无数据泄漏的人工智能数学奥林匹克竞赛（AIMO）中，于2200多支参赛队伍里取得了优异排名。这项工作为社区提供了一份经过实战检验的蓝图，用于开发兼具超高准确性和实用效率的最先进数学推理模型。为确保完全的可复现性并助力未来的研究，我们将在 https://github.com/analokmaus/kaggle-aimo2-fast-math-r1 开源我们的完整框架，包括所有代码、模型检查点和训练配置。

查看 arXiv 页面查看 PDF

Inoue Yuichi

论文作者

论文提交者

我们 Kaggle AIMO 2 工作中的论文

我们很高兴分享一篇新论文，该论文基于我们在 Kaggle 主办的 AI 数学奥林匹克竞赛 2 (AIMO 2) 比赛中的经验。

我们学到了什么

更长的 SFT 有帮助：对相同数据进行 10 个 epoch 的监督微调 (SFT) 提升了数学准确性。
GRPO 提高了效率：在 SFT 之后，GRPO（在线强化学习）在保持准确性的同时缩短了解决方案。

为什么它很重要

AIMO 2 是一个严格无信息泄露的基准测试，因此提高准确性非常困难。超过 2,200 个团队参加了比赛，许多团队都遇到了困难。由于我们的方法在这些严峻条件下奏效，我们相信它在实践中是有用的。

我们希望我们的开放资源能帮助其他人构建更好的数学推理器。非常欢迎反馈。

代码和检查点：https://github.com/analokmaus/kaggle-aimo2fast-math-r1

构建数学大语言模型的实用两阶段方案：利用SFT最大化准确率，以强化学习提升效率

摘要

评论