驯服混乱:异构和分布式 LLM 推理的协调自动缩放

发表
taesiritaesiri 提交
作者: Rongzhi Li, Ruogu Du, Zefang Chu, Sida Zhao, Chunlei Han, Zuocheng Shi, Yiwen ShaoYiwen Shao, Huanle Han, Long Huang, Zherui Liu, shufan liuShufan Liu

摘要

服务大型语言模型(LLM)是一项GPU密集型任务,传统的自动缩放器在此方面表现不佳,尤其是在现代Prefill-Decode(P/D)分离式架构中。这种架构上的转变虽然强大,但带来了重大的运营挑战,包括异构硬件利用率低、网络瓶颈以及预填和解码阶段之间的关键不平衡。我们引入HeteroScale,一个协调的自动缩放框架,解决了P/D分离式服务的核心挑战。HeteroScale结合了适应异构硬件和网络约束的拓扑感知调度程序,以及一项源自首个大规模生产自动缩放信号实证研究的新型指标驱动策略。通过利用单一的、稳健的指标来共同扩展预填和解码池,HeteroScale在保持架构平衡的同时,确保了高效、自适应的资源管理。HeteroScale已在一个大规模的生产环境中部署,运行在数万个GPU上,其有效性得到了验证,将平均GPU利用率提高了显著的26.6个百分点,并每天节省了数十万的GPU小时,同时还满足了严格的服务水平目标。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

> 服务大型语言模型(LLM)是一项 GPU 密集型任务,传统的自动扩缩器在此任务中表现不佳,特别是对于现代的 Prefill-Decode (P/D) 分离式架构。这种架构上的转变虽然强大,但带来了严峻的运营挑战,包括异构硬件利用率低下、网络瓶颈以及预填充和解码阶段之间的关键不平衡。我们引入了 HeteroScale,一个协同自动扩缩框架,以解决 P/D 分离式服务面临的核心挑战。HeteroScale 结合了一个拓扑感知的调度器,该调度器能够适应异构硬件和网络约束,以及一个新颖的、基于指标的策略,该策略源自对生产环境中自动扩缩信号的首次大规模实证研究。通过利用一个单一的、健壮的指标来联合扩缩预填充和解码池,HeteroScale 保持了架构的平衡,同时确保了高效、自适应的资源管理。HeteroScale 在大规模生产环境中部署了数万个 GPU,已经证明了其有效性,将平均 GPU 利用率提高了显著的 26.6 个百分点,并每天节省了数十万 GPU 小时,同时还满足了严格的服务水平目标。