⏶2
FLAME-MoE:一个用于混合专家语言模型的透明端到端研究平台
发表
由
Zichun Yu 提交
作者: Hao Kang, Zichun Yu, Chenyan Xiong
摘要
近期的大型语言模型,如Gemini-1.5、DeepSeek-V3和Llama-4,越来越多地采用专家混合(MoE)架构,这种架构通过在每个token上仅激活模型的一小部分,提供了强大的效率-性能权衡。然而,学术研究人员仍然缺乏一个完全开放的端到端MoE平台,用于研究扩展、路由和专家行为。我们发布了FLAME-MoE,一个完全开源的研究套件,由七个仅解码器模型组成,其活跃参数范围从38M到1.7B,其架构(64个专家,采用top-8门控和2个共享专家)紧密反映了现代生产级LLM。所有的训练数据管道、脚本、日志和检查点都是公开可用的,以实现可复现的实验。在六项评估任务中,FLAME-MoE相对于采用相同FLOPs训练的密集基线,平均准确率提高了高达3.4个百分点。利用完整的训练轨迹透明度,我们提出了初步分析,显示 (i) 专家越来越专注于不同的token子集,(ii) 共激活矩阵保持稀疏,反映了专家使用的多样性,以及 (iii) 路由行为在训练早期即趋于稳定。所有代码、训练日志和模型检查点都可在 https://github.com/cmu-flame/FLAME-MoE 获得。
🔥隆重推出 FLAME-MoE:一个完全开放的专家混合 (MoE) 研究平台。所有代码、数据、检查点、训练日志和评估结果都是公开的——涵盖 7 种模型尺寸(38M–1.7B 激活参数)。可复现。透明。可扩展。
论文:https://arxiv.org/abs/2505.20225
代码:https://github.com/cmu-flame/FLAME-MoE