⏶2

PreMoe：通过专家剪枝和检索减轻受限内存上的 MoEs

05月23日发表

05月28日由 JarvisPei 提交

作者: Zehua Pei, Ying Zhang, Hui-Ling Zhen, Xianzhi Yu, Wulong Liu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu

摘要

专家混合 (MoE) 架构使得大型语言模型 (LLMs) 能够扩展到大量的参数，而无需计算成本成比例增加。然而，大型 MoE 模型巨大的内存需求阻碍了它们在各种计算环境中的部署，从云服务器到消费设备。这项研究首先展示了 MoE 层中专家激活模式明显的任务特定专业化。在此基础上，我们引入了 PreMoe，一个新颖的框架，可以在内存受限的环境中高效部署大型 MoE 模型。PreMoe 包含两个主要组件：概率性专家剪枝 (PEP) 和任务自适应专家检索 (TAER)。PEP 采用一种新的指标，即从路由器 logits 导出的任务条件预期选择得分 (TCESS)，来量化特定任务中专家的重要性，从而识别出最少的关键专家集合。TAER 利用这些任务特定的专家重要性配置文件进行高效推理。它预先计算并存储针对不同任务的紧凑专家模式。当收到用户查询时，TAER 快速识别最相关的存储任务模式，并通过仅加载对该任务至关重要的少量专家子集来重建模型。这种方法显著减少了所有部署场景中的内存占用。DeepSeek-R1 671B 在剪枝到 8/128 配置（专家减少 50%）时，在 MATH500 上保持 97.2\% 的准确率，而在激进的 8/32 剪枝（专家减少 87.5%）下仍能达到 72.0\%。Pangu-Ultra-MoE 718B 在 8/128 剪枝下在 MATH500 上达到 97.15\%，在 AIME24 上达到 81.3\%，而即使更激进的剪枝到 4/64（390GB 内存）也能在 MATH500 上保持 96.95\% 的准确率。我们的代码已在 https://github.com/JarvisPei/PreMoe 公开。

查看 arXiv 页面查看 PDF

JarvisPei

论文作者

论文提交者

代码可在以下链接获取： https://github.com/JarvisPei/PreMoe

PreMoe：通过专家剪枝和检索减轻受限内存上的 MoEs

摘要

评论