⏶10
驯服巨头:高效 LLM 推理服务综述
发表
由
Ranran Zhen 提交
作者:
Ranran Zhen,
Juntao Li, Yixin Ji,
Zhenlin Yang, Tong Liu, Qingrong Xia,
Xinyu Duan, Zhefeng Wang, Baoxing Huai, Min Zhang


摘要
用于生成式 AI 的大语言模型 (LLMs) 取得了显著进展,已演变为复杂且多功能的工具,被广泛应用于各个领域和应用中。然而,其庞大的参数数量导致的巨大内存开销,加上注意力机制的高计算需求,在实现 LLM 推理服务的低延迟和高吞吐量方面带来了重大挑战。近期由开创性研究驱动的进展,显著加速了该领域的进步。本文对这些方法进行了全面综述,涵盖了基本的实例级方法、深入的集群级策略、新兴场景方向以及其他杂项但重要的领域。在实例级方面,我们回顾了模型部署、请求调度、解码长度预测、存储管理和解耦范式。在集群级方面,我们探讨了 GPU 集群部署、多实例负载均衡和云服务解决方案。对于新兴场景,我们围绕特定任务、模块和辅助方法组织了讨论。为了确保全面概述,我们还重点介绍了几个小众但关键的领域。最后,我们概述了进一步推动 LLM 推理服务领域发展的潜在研究方向。
评论
论文作者
论文提交者