⏶19
AIMO-2 获奖方案:使用 OpenMathReasoning 数据集构建最先进的数学推理模型
发表
由
Igor Gitman 提交

作者:
Ivan Moshkov,
Darragh Hanley,
Ivan Sorokin,
Shubham Toshniwal, Christof Henkel, Benedikt Schifferer,
Wei Du,
Igor Gitman




摘要
本文介绍了我们在人工智能数学奥林匹克竞赛 - 进步奖 2 (AIMO-2) 中获胜的参赛作品。我们构建最先进数学推理模型的方法依赖于三个关键支柱。首先,我们创建了一个大规模数据集,包含 54 万个独特的高质量数学问题,其中包括奥林匹克级别的题目,以及它们对应的 320 万个长推理解决方案。其次,我们开发了一种新颖的方法,通过迭代训练、生成和质量过滤,将代码执行与长推理模型相结合,生成了 170 万个高质量的工具集成推理解决方案。第三,我们创建了一个训练模型的流程,用于从众多候选方案中选择最有希望的解决方案。我们证明,这种生成式解决方案选择 (GenSelect) 方法可以显著优于多数投票基线。结合这些思想,我们训练了一系列模型,在数学推理基准测试中取得了最先进的结果。为了促进进一步研究,我们在商业友好许可下发布了我们的代码、模型和完整的 OpenMathReasoning 数据集。
AIMO-2 优胜方案:使用 OpenMathReasoning 数据集构建最先进的数学推理模型