并非所有模型都适合专家卸载:论专家混合模型的局部路由一致性

发表
Leo LiangLeo Liang 提交
作者: Leo LiangJingcong Liang, Siyuan Wang, Miren Tian, Yitong Li, Duyu Tang, Zhongyu Wei

摘要

混合专家模型(MoE)使得大型语言模型(LLM)能够通过在推理过程中稀疏激活专家来高效扩展。为了在内存受限的设备上有效部署大型 MoE 模型,许多系统引入了*专家卸载*,该机制将一部分专家缓存在快速内存中,而将其他专家留在慢速内存中,以便在 CPU 上运行或按需加载。尽管已有研究利用了专家激活的局部性(即连续的 token 会激活相似的专家),但这种**局部路由一致性**的程度在不同模型之间差异很大,且研究不足。在本文中,我们提出了两个指标来衡量 MoE 模型的局部路由一致性:(1) **段路由最佳性能(SRP)**,用于评估一组固定的专家能在多大程度上满足一段 token 的需求,以及 (2) **段缓存最佳命中率(SCH)**,用于衡量在给定缓存大小限制下,最佳的段级缓存命中率。我们分析了 20 个不同大小和架构的 MoE LLM,发现对每一层都应用 MoE 且不使用共享专家的模型表现出最高的局部路由一致性。我们进一步表明,领域特定专家比词汇特定专家对路由一致性的贡献更大,并且大多数模型可以在缓存大小约为活动专家的 2 倍时,在缓存有效性和效率之间取得平衡。这些发现为在不牺牲推理速度的情况下设计和部署内存高效的 MoE 模型铺平了道路。我们发布了用于复现实验的代码,地址为 https://github.com/ljcleo/moe-lrc
查看 arXiv 页面查看 PDF

评论

Leo LiangLeo Liang
论文作者
论文提交者

我们引入了本地路由一致性,将其作为一个用于高效专家卸载的关键属性,对各种 MoE LLMs 进行了实证分析,并为 MoE 架构和缓存系统设计提供了实用见解。