⏶89
MiroMind-M1:通过上下文感知多阶段策略优化在数学推理方面的开源进展
发表
由
Xingxuan Li 提交

作者:
Xingxuan Li, Yao Xiao, Dianwen Ng, Hai Ye, Yue Deng, Xiang Lin,
Bin Wang, Zhanfeng Mo, Chong Zhang, Yueyi Zhang,
Zonglin Yang, Ruilin Li, Lei Lei, Shihao Xu, Han Zhao, Weiling Chen, Feng Ji,
Lidong Bing



摘要
大型语言模型最近已从流畅的文本生成发展到跨不同领域的高级推理,从而催生了推理语言模型(RLM)。在这些领域中,数学推理是一个代表性的基准,因为它需要精确的多步骤逻辑和抽象推理,这可以推广到其他任务。尽管GPT-o3等闭源RLM展现出令人印象深刻的推理能力,但其专有性质限制了透明度和可复现性。尽管许多开源项目旨在弥补这一差距,但大多数项目未能充分开放,省略了数据集和详细训练配置等关键资源,从而阻碍了可复现性。为了提高RLM开发的透明度,我们推出了MiroMind-M1系列,这是一套基于Qwen-2.5骨干构建的完全开源RLM,其性能与现有开源RLM持平或超越。具体而言,我们的模型分两个阶段训练:首先在包含71.9万个经过验证的CoT轨迹的数学推理问题的精心策划语料库上进行SFT,然后对6.2万个具有挑战性和可验证的问题进行RLVR。为了增强RLVR过程的鲁棒性和效率,我们引入了上下文感知多阶段策略优化(Context-Aware Multi-Stage Policy Optimization),该算法将长度渐进式训练与自适应重复惩罚相结合,以鼓励上下文感知的强化学习训练。我们的模型在AIME24、AIME25和MATH基准测试中,在基于Qwen-2.5的开源7B和32B模型中,实现了最先进或具有竞争力的性能以及卓越的token效率。为了便于可复现性,我们发布了完整的技术栈:模型(MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B);数据集(MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K);以及所有训练和评估配置。我们希望这些资源能支持进一步的研究并促进社区发展。
GitHub: https://github.com/MiroMindAsia/MiroMind-M1
HuggingFace Collection: https://huggingface.co/collections/miromind-ai/miromind-m1-686a2eaf1cb21609584aff82