⏶64
MiMo:释放语言模型的推理潜力——从预训练到后训练
发表
由
Yifan Song 提交

作者: Xiaomi LLM-Core Team,
Bingquan Xia, Bowen Shen, Cici,
Dawei Zhu, Di Zhang, Gang Wang,
Hailin Zhang,
Huaqiu Liu, Jiebao Xiao,
Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu,
Shimao Chen,
Weikun Wang,
Wenhan Ma,
Xiangwei Deng, Yi Huang,
Yifan Song,
Zihan Jiang,
Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang,
Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, QingKai Fang, Kang Zhou, Kangyang Zhou,
Lei Li, Menghang Zhu, Nuo Chen,
Qiantong Wang, Shaohui Liu, Shicheng Li,
Shuhao Gu,
Shuhuai Ren, Shuo Liu,
Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song,
Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song,
Zihao Yue





摘要
我们提出 MiMo-7B,一个为推理任务而生的大型语言模型,并在预训练和后训练阶段进行了优化。在预训练阶段,我们改进了数据预处理流程,并采用了三阶段数据混合策略,以增强基础模型的推理潜力。MiMo-7B-Base 在 25 万亿个 token 上进行了预训练,并增加了多 token 预测目标,以提升性能并加快推理速度。在后训练阶段,我们整理了 13 万个可验证的数学和编程问题数据集用于强化学习,并集成了一种测试难度驱动的代码奖励机制来缓解稀疏奖励问题,同时采用策略性数据重采样来稳定训练。大量评估表明,MiMo-7B-Base 拥有卓越的推理潜力,甚至超越了更大的 32B 模型。最终经过 RL 微调的模型 MiMo-7B-RL 在数学、代码和通用推理任务上取得了卓越性能,超越了 OpenAI o1-mini 的表现。模型检查点可在 https://github.com/xiaomimimo/MiMo 获取。
我们推出 MiMo,一个为推理任务而生的大语言模型,在预训练和后训练阶段都进行了优化。MiMo-7B-Base 在 25 万亿个 token 上进行了预训练,具备卓越的推理潜力。最终的 RL 调优模型 MiMo-7B-RL 在数学、代码和通用推理任务上取得了卓越的性能。
GitHub: https://github.com/XiaomiMiMo/MiMo