⏶64

MiMo：释放语言模型的推理潜力——从预训练到后训练

05月12日发表

05月13日由 Yifan Song 提交

作者: Xiaomi LLM-Core Team, Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang, Hailin Zhang, Huaqiu Liu, Jiebao Xiao, Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Ezio Chen Shimao Chen, Weikun Wang, Wenhan Ma, Xiangwei Deng, Yi Huang, Yifan Song, Zihan Jiang, Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Dylan Wang Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, QingKai Fang, Kang Zhou, Kangyang Zhou, Lei Li Lei Li, Menghang Zhu, Nuo Chen, Qiantong Wang, Shaohui Liu, Shicheng Li, Shuhao Gu, Shuhuai Ren, Shuo Liu, Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao Yue

摘要

我们提出 MiMo-7B，一个为推理任务而生的大型语言模型，并在预训练和后训练阶段进行了优化。在预训练阶段，我们改进了数据预处理流程，并采用了三阶段数据混合策略，以增强基础模型的推理潜力。MiMo-7B-Base 在 25 万亿个 token 上进行了预训练，并增加了多 token 预测目标，以提升性能并加快推理速度。在后训练阶段，我们整理了 13 万个可验证的数学和编程问题数据集用于强化学习，并集成了一种测试难度驱动的代码奖励机制来缓解稀疏奖励问题，同时采用策略性数据重采样来稳定训练。大量评估表明，MiMo-7B-Base 拥有卓越的推理潜力，甚至超越了更大的 32B 模型。最终经过 RL 微调的模型 MiMo-7B-RL 在数学、代码和通用推理任务上取得了卓越性能，超越了 OpenAI o1-mini 的表现。模型检查点可在 https://github.com/xiaomimimo/MiMo 获取。

查看 arXiv 页面查看 PDF

Yifan Song

论文作者

论文提交者

我们推出 MiMo，一个为推理任务而生的大语言模型，在预训练和后训练阶段都进行了优化。MiMo-7B-Base 在 25 万亿个 token 上进行了预训练，具备卓越的推理潜力。最终的 RL 调优模型 MiMo-7B-RL 在数学、代码和通用推理任务上取得了卓越的性能。

GitHub: https://github.com/XiaomiMiMo/MiMo

Guoan Wang

感谢你们的杰出工作 :) 我认为我可能被错误地列入了作者名单，可能是由于名字相似。为了避免任何误解，是否可以请你们更新作者名单，使用正确的作者？

Lei Li

论文作者

你可以在你的个人资料中声明与本文无关 :)

Guoan Wang

哈哈，谢谢你的友好回复。我也很高兴得知有人和我同名。

便于随时随地学习的语音介绍：https://youtu.be/y6mSdLgJYQY

MiMo：释放语言模型的推理潜力——从预训练到后训练

摘要

评论