MiMo:释放语言模型的推理潜力——从预训练到后训练

发表
Yifan SongYifan Song 提交
作者: Xiaomi LLM-Core Team, Bingquan XiaBingquan Xia, Bowen Shen, Cici, Dawei ZhuDawei Zhu, Di Zhang, Gang Wang, Hailin ZhangHailin Zhang, Huaqiu LiuHuaqiu Liu, Jiebao Xiao, Jinhao DongJinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Ezio ChenShimao Chen, Weikun WangWeikun Wang, Wenhan MaWenhan Ma, Xiangwei DengXiangwei Deng, Yi Huang, Yifan SongYifan Song, Zihan JiangZihan Jiang, BoWen YeBowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Dylan WangGuoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, QingKai Fang, Kang Zhou, Kangyang Zhou, Lei LiLei Li, Menghang Zhu, Nuo Chen, qiantong wangQiantong Wang, Shaohui Liu, Shicheng Li, shuhao guShuhao Gu, Shuhuai RenShuhuai Ren, Shuo Liu, Sirui DengSirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe XuXinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao YueZihao Yue

摘要

我们提出 MiMo-7B,一个为推理任务而生的大型语言模型,并在预训练和后训练阶段进行了优化。在预训练阶段,我们改进了数据预处理流程,并采用了三阶段数据混合策略,以增强基础模型的推理潜力。MiMo-7B-Base 在 25 万亿个 token 上进行了预训练,并增加了多 token 预测目标,以提升性能并加快推理速度。在后训练阶段,我们整理了 13 万个可验证的数学和编程问题数据集用于强化学习,并集成了一种测试难度驱动的代码奖励机制来缓解稀疏奖励问题,同时采用策略性数据重采样来稳定训练。大量评估表明,MiMo-7B-Base 拥有卓越的推理潜力,甚至超越了更大的 32B 模型。最终经过 RL 微调的模型 MiMo-7B-RL 在数学、代码和通用推理任务上取得了卓越性能,超越了 OpenAI o1-mini 的表现。模型检查点可在 https://github.com/xiaomimimo/MiMo 获取。
查看 arXiv 页面查看 PDF

评论

Yifan SongYifan Song
论文作者
论文提交者

我们推出 MiMo,一个为推理任务而生的大语言模型,在预训练和后训练阶段都进行了优化。MiMo-7B-Base 在 25 万亿个 token 上进行了预训练,具备卓越的推理潜力。最终的 RL 调优模型 MiMo-7B-RL 在数学、代码和通用推理任务上取得了卓越的性能。

GitHub: https://github.com/XiaomiMiMo/MiMo

Guoan WangGuoan Wang

感谢你们的杰出工作 :) 我认为我可能被错误地列入了作者名单,可能是由于名字相似。为了避免任何误解,是否可以请你们更新作者名单,使用正确的作者?

Lei LiLei Li
论文作者

你可以在你的个人资料中声明与本文无关 :)

Guoan WangGuoan Wang

哈哈,谢谢你的友好回复。我也很高兴得知有人和我同名。

YJYJ

便于随时随地学习的语音介绍:https://youtu.be/y6mSdLgJYQY