⏶14

HybriMoE：用于高效MoE推理的混合CPU-GPU调度和缓存管理

04月08日发表

04月09日由 kevin zhong 提交

作者: Shuzhang Zhong, Sa lan Yanfan Sun, Ling Liang, Runsheng Wang, ruhuang Ru Huang, Meng Li Meng Li

摘要

专家混合 (MoE) 架构已显示出显着的优势，因为它能够在不按比例增加计算量的情况下增加模型容量。然而，大型 MoE 模型尺寸仍然会带来大量的内存需求，这通常需要在资源受限的平台上进行专家卸载，并产生巨大的开销。混合 CPU-GPU 推理已被提出利用 CPU 计算来减少专家加载开销，但面临着重大挑战：一方面，MoE 模型的专家激活模式非常不稳定，导致现有工作中的固定映射策略效率低下；另一方面，由于专家规模、结构、工作负载分布不均等因素的多样性，MoE 的混合 CPU-GPU 调度本质上是复杂的。为了应对这些挑战，在本文中，我们提出了 HybriMoE，这是一个混合 CPU-GPU 推理框架，它通过新颖的 CPU-GPU 调度和缓存管理系统来提高资源利用率。HybriMoE 引入了 (i) 一种动态层内调度策略，用于平衡 CPU 和 GPU 之间的工作负载，(ii) 一种影响驱动的层间预取算法，以及 (iii) 一种基于分数的缓存算法，用于缓解专家激活不稳定性。我们在 kTransformers 框架之上实现了 HybriMoE，并在三个广泛使用的基于 MoE 的 LLM 上对其进行了评估。实验结果表明，与最先进的混合 MoE 推理框架相比，HybriMoE 在预填充阶段实现了平均 1.33 倍的加速，在解码阶段实现了 1.70 倍的加速。我们的代码可在以下网址获取：https://github.com/PKU-SEC-Lab/HybriMoE。

查看 arXiv 页面查看 PDF

kevin zhong

论文作者

论文提交者

HybriMoE：一种混合 CPU-GPU 推理框架，通过一种新颖的 CPU-GPU 调度和缓存管理系统来提高资源利用率，与最先进的混合 MoE 推理框架相比，在 prefill 阶段平均加速 1.33 倍，在 decode 阶段平均加速 1.70 倍。

代码可在 https://github.com/PKU-SEC-Lab/HybriMoE 获取。

HybriMoE：用于高效MoE推理的混合CPU-GPU调度和缓存管理

摘要

评论