⏶11
SlimMoE:通过专家精简和蒸馏对大型MoE模型进行结构化压缩
发表
由
Chen Liang 提交
作者:
Zichong Li, Chen Liang, Zixuan Zhang, Ilgee Hong,
Young Jin Kim, Weizhu Chen, Tuo Zhao
摘要
专家混合(MoE)架构已成为扩展大语言模型(LLMs)同时保持推理效率的强大范式。然而,其巨大的内存需求使得它们在资源受限的环境中进行微调或部署的成本过高。为了应对这一挑战,我们引入了SlimMoE,这是一个多阶段压缩框架,用于将大型MoE模型转换为更小、更高效的变体,而无需承担从头开始训练的巨大成本。我们的方法通过瘦身专家并分阶段转移知识来系统地减少参数数量,有效缓解了一次性剪枝方法中常见的性能下降。利用此框架,我们仅使用400B个tokens(不到原始模型训练数据的10%)就将Phi 3.5-MoE(总参数41.9B/激活参数6.6B)压缩为Phi-mini-MoE(总参数7.6B/激活参数2.4B)和Phi-tiny-MoE(总参数3.8B/激活参数1.1B)。这些压缩模型可以在单张GPU上进行微调(Phi-mini-MoE使用A100,Phi-tiny-MoE使用A6000),使其非常适合学术和资源受限的环境。我们的实验表明,这些压缩模型优于其他同等规模的模型,并与大型模型保持竞争力。例如,Phi-mini-MoE仅使用Phi-3-mini三分之二的激活参数,即可达到与其相似或更好的性能,并且尽管延迟显著降低,其MMLU分数与Llama 3.1 8B相当。我们的研究结果表明,结构化剪枝与分阶段蒸馏相结合,为创建高质量、紧凑的MoE模型提供了一条有效途径,为MoE架构的更广泛采用铺平了道路。我们的模型已公开,可访问:
https://huggingface.co/microsoft/Phi-mini-MoE-instruct 和
https://huggingface.co/microsoft/Phi-tiny-MoE-instruct 。
https://huggingface.co/microsoft/Phi-mini-MoE-instruct https://huggingface.co/microsoft/Phi-tiny-MoE-instruct