⏶14
HybriMoE:用于高效MoE推理的混合CPU-GPU调度和缓存管理
发表
由
kevin zhong 提交

作者:
Shuzhang Zhong,
Yanfan Sun, Ling Liang, Runsheng Wang,
Ru Huang,
Meng Li

摘要
专家混合 (MoE) 架构已显示出显着的优势,因为它能够在不按比例增加计算量的情况下增加模型容量。然而,大型 MoE 模型尺寸仍然会带来大量的内存需求,这通常需要在资源受限的平台上进行专家卸载,并产生巨大的开销。混合 CPU-GPU 推理已被提出利用 CPU 计算来减少专家加载开销,但面临着重大挑战:一方面,MoE 模型的专家激活模式非常不稳定,导致现有工作中的固定映射策略效率低下;另一方面,由于专家规模、结构、工作负载分布不均等因素的多样性,MoE 的混合 CPU-GPU 调度本质上是复杂的。为了应对这些挑战,在本文中,我们提出了 HybriMoE,这是一个混合 CPU-GPU 推理框架,它通过新颖的 CPU-GPU 调度和缓存管理系统来提高资源利用率。HybriMoE 引入了 (i) 一种动态层内调度策略,用于平衡 CPU 和 GPU 之间的工作负载,(ii) 一种影响驱动的层间预取算法,以及 (iii) 一种基于分数的缓存算法,用于缓解专家激活不稳定性。我们在 kTransformers 框架之上实现了 HybriMoE,并在三个广泛使用的基于 MoE 的 LLM 上对其进行了评估。实验结果表明,与最先进的混合 MoE 推理框架相比,HybriMoE 在预填充阶段实现了平均 1.33 倍的加速,在解码阶段实现了 1.70 倍的加速。我们的代码可在以下网址获取:https://github.com/PKU-SEC-Lab/HybriMoE。
HybriMoE:一种混合 CPU-GPU 推理框架,通过一种新颖的 CPU-GPU 调度和缓存管理系统来提高资源利用率,与最先进的混合 MoE 推理框架相比,在 prefill 阶段平均加速 1.33 倍,在 decode 阶段平均加速 1.70 倍。
代码可在 https://github.com/PKU-SEC-Lab/HybriMoE 获取。