MoBE:用于压缩基于 MoE 的 LLM 的混合基专家

发表
Xiaodong ChenXiaodong Chen 提交
作者: Xiaodong ChenXiaodong Chen, Mingming Ha, Zhenzhong Lan, Jing Zhang, Jianguo Li

摘要

专家混合 (MoE) 架构已成为扩展大型语言模型 (LLM) 的主要范式。尽管 DeepSeek-V3-0324 和 Kimi-K2-Instruct 等基于 MoE 的大型 LLM 提供了强大的性能和计算效率,但由于部署中巨大的内存需求而带来了严峻的挑战。虽然最近的工作探索了 MoE 压缩来解决此问题,但现有方法通常即使在适度的压缩率下也会出现相当大的精度下降(例如,相对下降 7-14%)。本文介绍了一种新颖的基专家混合 (MoBE) 方法,该方法在实现模型压缩的同时,仅带来极小的精度下降。具体来说,专家中的每个 up/gate 矩阵都通过秩分解 W = AB 进行分解,其中矩阵 A 对每个专家都是唯一的。相对较大的矩阵 B 进一步重新参数化为给定 MoE 层中所有专家共享的基矩阵 {Bi} 的线性组合。通过最小化相对于原始权重矩阵的重建误差来学习分解。实验表明,与以前的工作相比,MoBE 实现了显著更低的精度下降。例如,MoBE 可以将 Qwen3-235B-A22B-2507、DeepSeek-V3-0324 (671B) 和 Kimi-K2-Instruct (1T) 的参数数量减少 24%-30%,而精度仅下降 1%-2%(相对下降约 2%)。
查看 arXiv 页面查看 PDF

评论

Xiaodong ChenXiaodong Chen
论文作者
论文提交者

虽然混合专家(MoE)模型是目前最先进的模型,但其巨大的尺寸导致部署困难,因为内存成本高昂。目前压缩这些模型的方法会导致性能大幅下降(7-14%)。本文引入了一种名为“基础专家混合”(MoBE)的新型高效方法。

核心思想是改变“专家”的构建方式。MoBE 没有让每个专家完全独立,而是将它们重新设计成一个小型独特组件和更大组件的组合,该更大组件由一组所有专家共享的“基础”矩阵构建。这种高效的参数共享策略使 MoBE 能够将大型模型(从数千亿到万亿参数)的大小减小 24-30%,同时性能下降可忽略不计,仅为 1-2%,与以前的技术相比有了显著改进。