PreMoe:通过专家剪枝和检索减轻受限内存上的 MoEs

发表
JarvisPeiJarvisPei 提交
作者: JarvisPeiZehua Pei, Ying Zhang, Hui-Ling Zhen, Xianzhi Yu, Wulong Liu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu

摘要

专家混合 (MoE) 架构使得大型语言模型 (LLMs) 能够扩展到大量的参数,而无需计算成本成比例增加。然而,大型 MoE 模型巨大的内存需求阻碍了它们在各种计算环境中的部署,从云服务器到消费设备。这项研究首先展示了 MoE 层中专家激活模式明显的任务特定专业化。在此基础上,我们引入了 PreMoe,一个新颖的框架,可以在内存受限的环境中高效部署大型 MoE 模型。PreMoe 包含两个主要组件:概率性专家剪枝 (PEP) 和任务自适应专家检索 (TAER)。PEP 采用一种新的指标,即从路由器 logits 导出的任务条件预期选择得分 (TCESS),来量化特定任务中专家的重要性,从而识别出最少的关键专家集合。TAER 利用这些任务特定的专家重要性配置文件进行高效推理。它预先计算并存储针对不同任务的紧凑专家模式。当收到用户查询时,TAER 快速识别最相关的存储任务模式,并通过仅加载对该任务至关重要的少量专家子集来重建模型。这种方法显著减少了所有部署场景中的内存占用。DeepSeek-R1 671B 在剪枝到 8/128 配置(专家减少 50%)时,在 MATH500 上保持 97.2\% 的准确率,而在激进的 8/32 剪枝(专家减少 87.5%)下仍能达到 72.0\%。Pangu-Ultra-MoE 718B 在 8/128 剪枝下在 MATH500 上达到 97.15\%,在 AIME24 上达到 81.3\%,而即使更激进的剪枝到 4/64(390GB 内存)也能在 MATH500 上保持 96.95\% 的准确率。我们的代码已在 https://github.com/JarvisPei/PreMoe 公开。
查看 arXiv 页面查看 PDF

评论

JarvisPeiJarvisPei
论文作者
论文提交者

代码可在以下链接获取: https://github.com/JarvisPei/PreMoe