⏶27
大型语言模型推理引擎综述:优化与效率的视角
发表
由
Jemin Lee 提交
作者:
Sihyeong Park, Sungryeol Jeon,
Chaelyn Lee,
Seokhun Jeon, Byung-Soo Kim,
Jemin Lee

摘要
大型语言模型 (LLMs) 被广泛应用于聊天机器人、代码生成器和搜索引擎。链式思考、复杂推理和代理服务等工作负载通过重复调用模型显著增加了推理成本。虽然已采用并行化、压缩和缓存等优化方法来降低成本,但多样化的服务需求使得选择合适的方法变得困难。最近,专门的 LLM 推理引擎已成为将优化方法整合到面向服务基础设施中的关键组成部分。然而,目前仍缺乏对推理引擎的系统性研究。本文对 25 个开源和商业推理引擎进行了全面评估。我们从易用性、易部署性、通用支持、可伸缩性以及对吞吐量和延迟敏感的计算的适用性等方面检查了每个推理引擎。此外,我们通过研究其支持的优化技术来探索每个推理引擎的设计目标。此外,我们还评估了开源推理引擎的生态系统成熟度,并处理了商业解决方案的性能和成本策略。我们概述了未来的研究方向,包括支持复杂的基于 LLM 的服务、支持多种硬件以及增强安全性,为研究人员和开发人员选择和设计优化的 LLM 推理引擎提供了实用指导。我们还提供了一个公共仓库,以便持续跟踪这个快速发展领域的进展:https://github.com/sihyeong/Awesome-LLM-Inference-Engine
在这项全面的调查中,我们:
🔗 https://github.com/sihyeong/Awesome-LLM-Inference-Engine