Pangu Pro MoE:分组专家混合用于高效稀疏性

发表
Adina YakefuAdina Yakefu 提交
作者: Yehui TangYehui Tang, Xiaosong Li, liuFangcheng Liu, Wei Guo, Hang Zhou, Yaoyuan Wang, Kai Han, Xianzhi Yu, Jinpeng Li, Hui Zang, Fei Mi, Xiaojun Meng, Zhicheng Liu, Hanting Chen, Binfan Zheng, Can Chen, Youliang Yan, Ruiming Tang, Peifeng Qin, Xinghao Chen, Dacheng Tao, Yunhe WangYunhe Wang

摘要

大型语言模型中专家混合(MoE)的兴起,预示着以较小的执行成本实现更大的模型参数量和学习能力,因为每个输入token仅激活一小部分参数。然而,通常观察到某些专家被激活的频率远高于其他专家,导致在不同设备上并行运行专家时出现系统效率低下。因此,我们引入了分组专家混合(MoGE),它在选择时对专家进行分组,并在本质上比MoE更好地平衡了专家工作负载。它限制了token在每个预定义专家组中激活相同数量的专家。当模型执行分布在多个设备上时,这种架构设计确保了设备之间计算负载的平衡,显著提高了吞吐量,特别是在推理阶段。此外,我们在昇腾NPU上构建了盘古大模型MoE(Pangu Pro MoE),这是一个基于MoGE的稀疏模型,总参数量为720亿,其中每个token激活160亿参数。盘古大模型MoE的配置通过广泛的系统仿真研究,为昇腾300I Duo和800I A2进行了优化。我们的实验表明,MoGE确实在昇腾NPU上为模型训练和推理带来了更好的专家负载均衡和更高效的执行。盘古大模型MoE的推理性能达到每卡1148 tokens/s,通过推测性加速可进一步提升至每卡1528 tokens/s,超越了可比较的320亿和720亿稠密模型。此外,我们在昇腾300I Duo上实现了模型推理的卓越性价比。我们的研究表明,昇腾NPU能够以大规模并行化方式训练盘古大模型MoE,使其成为千亿以下总参数量级别中的领先模型,性能超越GLM-Z1-32B和Qwen3-32B等知名开源模型。
查看 arXiv 页面查看 PDF

评论

Adina YakefuAdina Yakefu
论文提交者

关于华为首个开放模型——盘古Pro MoE 的论文 🔥