⏶24
Grove MoE:通过伴随专家实现高效卓越的 MoE LLM
发表
由
Haoyuan WU 提交
作者:
Haoyuan Wu,
Haoxing Chen,
Xiaodong Chen,
Zhanchao Zhou, Tieyuan Chen,
Yihong Zhuang,
Guoshan Lu,
Zenan Huang, Junbo Zhao, Lin Liu, Zhenzhong Lan, Bei Yu, Jianguo Li



摘要
专家混合 (MoE) 架构是现代最先进 (SOTA) 大型语言模型 (LLM) 的基石。MoE 模型通过实现稀疏参数激活来促进可扩展性。然而,传统的 MoE 架构使用统一大小的同构专家,无论输入复杂性如何,都会激活固定数量的参数,从而限制了计算效率。为了克服这一限制,我们引入了 Grove MoE,这是一种受异构 big.LITTLE CPU 架构启发,整合了不同大小专家的创新架构。该架构具有新颖的伴随专家和动态激活机制,可在保持可控计算开销的同时扩展模型容量。在此架构的基础上,我们展示了 GroveMoE-Base 和 GroveMoE-Inst,这是通过在训练中期和后期对 Qwen3-30B-A3B-Base 模型应用升级策略而开发的 330 亿参数 LLM。GroveMoE 模型根据令牌复杂性动态激活 31.4 亿至 32.8 亿参数,并实现与同等或更大规模的 SOTA 开源模型相当的性能。
GroveMoE 是由 蚂蚁集团研究 AGI 中心 开发的 开源 大型语言模型家族,它引入了 Grove MoE,一种使用 伴随专家 的新型稀疏架构,用于动态计算分配。
GroveMoE 拥有 33B 的总参数 和 每个 token 3.14-3.28B 的活跃参数,在推理、数学和代码生成方面提供 最先进 的结果,同时保持低推理成本。