⏶248
MiniMax-M1:利用Lightning Attention高效扩展测试时计算
发表
由
MiniMax 提交

作者: MiniMax,
Aili Chen, Aonian Li, Bangwei Gong, Binyang Jiang, Bo Fei, Bo Yang, Boji Shan,
Changqing Yu, Chao Wang, Cheng Zhu, Chengjun Xiao, Chengyu Du, Chi Zhang, Chu Qiao,
Chunhao Zhang, Chunhui Du, Congchao Guo, Da Chen, Deming Ding, Dianjun Sun, Dong Li, Enwei Jiao, Haigang Zhou, Haimo Zhang, Han Ding, Haohai Sun, Haoyu Feng, Huaiguang Cai, Haichao Zhu, Jian Sun, Jiaqi Zhuang,
Jiaren Cai, Jiayuan Song,
Jin Zhu, Jingyang Li, Jinhao Tian, Jinli Liu, Junhao Xu, Junjie Yan, Junteng Liu, Junxian He, Kaiyi Feng, Ke Yang, Kecheng Xiao,
Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Li, Lin Zheng, Linge Du, Lingyu Yang, Lunbin Zeng, Minghui Yu, Mingliang Tao, Mingyuan Chi, Mozhi Zhang,
Mujie Lin, Nan Hu, Nongyu Di, Peng Gao, Pengfei Li, Pengyu Zhao, Qibing Ren, Qidi Xu, Qile Li, Qin Wang, Rong Tian, Ruitao Leng, Shaoxiang Chen, Shaoyu Chen, Shengmin Shi, Shitong Weng, Shuchang Guan, Shuqi Yu, Sichen Li, Songquan Zhu, Tengfei Li, Tianchi Cai, Tianrun Liang, Weiyu Cheng, Weize Kong, Wenkai Li, Xiancai Chen, Xiangjun Song,
Xiao Luo, Xiao Su,
Xiaobo Li, Xiaodong Han, Xinzhu Hou, Xuan Lu, Xun Zou, Xuyang Shen, Yan Gong,
Yan Ma, Yang Wang, Yiqi Shi, Yiran Zhong, Yonghong Duan, Yongxiang Fu, Yongyi Hu, Yu Gao, Yuanxiang Fan, Yufeng Yang, Yuhao Li, Yulin Hu, Yunan Huang, Yunji Li, Yunzhi Xu, Yuxin Mao, Yuxuan Shi, Yuze Wenren, Zehan Li, Zelin Li, Zhanxu Tian, Zhengmao Zhu, Zhenhua Fan, Zhenzhen Wu, Zhichao Xu, Zhihang Yu, Zhiheng Lyu, Zhuo Jiang,
Zibo Gao, Zijia Wu, Zijian Song, Zijun Sun




摘要
我们推出 MiniMax-M1,这是世界上首个开放权重的、大规模的混合注意力推理模型。MiniMax-M1 基于混合专家混合(MoE)架构与闪电注意力机制相结合。该模型在我们之前的 MiniMax-Text-01 模型基础上开发,共包含 4560 亿参数,每个 token 激活 459 亿参数。M1 模型原生支持 100 万 token 的上下文长度,是 DeepSeek R1 上下文大小的 8 倍。此外,MiniMax-M1 中的闪电注意力机制能够高效地扩展测试时的计算。这些特性使得 M1 特别适用于需要处理长输入和进行大量思考的复杂任务。MiniMax-M1 使用大规模强化学习(RL)进行训练,训练问题多样,包括基于沙盒的环境以及真实世界的软件工程环境。除了 M1 在 RL 训练中固有的效率优势外,我们提出了一种新颖的 RL 算法 CISPO,以进一步提高 RL 效率。CISPO 剪裁重要性采样权重而非 token 更新,其表现优于其他具有竞争力的 RL 变体。结合混合注意力和 CISPO,MiniMax-M1 在 512 个 H800 GPU 上的完整 RL 训练仅需三周即可完成,租用成本仅为 534,700 美元。我们发布了两个版本的 MiniMax-M1 模型,思考预算分别为 40K 和 80K,其中 40K 模型代表 80K 训练的一个中间阶段。在标准基准上的实验表明,我们的模型与原始 DeepSeek-R1 和 Qwen3-235B 等强大的开放权重模型相比,性能相当或更优,特别在复杂软件工程、工具使用和长上下文任务方面表现出色。我们已在 https://github.com/MiniMax-AI/MiniMax-M1 公开 MiniMax-M1。
评论
你可以在 arXiv explained 上收听这项研究的音频解读:https://arxivexplained.com/papers/minimax-m1-scaling-test-time-compute-efficiently-with-lightning-attention
我们推出了 MiniMax-M1,这是世界上首个开源、大规模混合注意力推理模型。MiniMax-M1 由混合专家混合 (MoE) 架构结合闪电注意力机制驱动。该模型在我们之前的 MiniMax-Text-01 模型基础上开发,总参数量达到 4560 亿,每个 token 激活 459 亿参数。与 MiniMax-Text-01 一致,M1 模型原生支持 100 万 token 的上下文长度,是 DeepSeek R1 上下文大小的 8 倍。此外,MiniMax-M1 中的闪电注意力机制使得测试时计算能够高效扩展——例如,与 DeepSeek R1 相比,M1 在生成 10 万 token 时消耗的 FLOPs 仅为其 25%。这些特性使得 M1 特别适合需要处理长输入和进行广泛思考的复杂任务。MiniMax-M1 使用大规模强化学习 (RL) 在从传统数学推理到基于沙盒的现实软件工程环境等多种问题上进行训练。我们为 M1 开发了一个高效的 RL 扩展框架,重点突出两个方面:(1) 我们提出了 CISPO,这是一种新颖的算法,它裁剪重要性采样权重而不是 token 更新,性能优于其他有竞争力的 RL 变体;(2) 我们的混合注意力设计自然增强了 RL 的效率,我们在使用混合架构扩展 RL 时解决了独特的挑战。我们训练了两个版本的 MiniMax-M1 模型,思考预算分别为 40K 和 80K。标准基准测试的实验表明,我们的模型优于其他强大的开源模型,例如原始的 DeepSeek-R1 和 Qwen3-235B,特别是在复杂的软件工程、工具使用和长上下文任务上。凭借高效的测试时计算扩展能力,MiniMax-M1 为下一代语言模型代理进行推理和应对现实世界挑战奠定了坚实的基础。