EfficientLLM: 大语言模型中的效率

发表
TyrannosaurusTyrannosaurus 提交
作者: Zhengqing Yuan, Weixiang SunWeixiang Sun, Yixin Liu, Huichi Zhou, Rong Zhou, Yiyang Li, Zheyuan Zhang, Wei Song, Yue Huang, Haolong Jia, Keerthiram Murugesan, Yu Wang, Lifang He, Jianfeng Gao, Lichao Sun, Yanfang Ye

摘要

大型语言模型(LLM)推动了重大进展,然而其不断增长的参数量和上下文窗口带来了高昂的计算、能源和金钱成本。我们引入了 EfficientLLM,这是一个新颖的基准测试,也是首次全面实证研究评估大规模 LLM 的效率技术。我们的研究在一个生产级集群(48 个 GH200,8 个 H200 GPU)上进行,系统地探索了三个关键维度:(1)架构预训练(高效注意力变体:MQA、GQA、MLA、NSA;稀疏混合专家模型(MoE)),(2)微调(参数高效方法:LoRA、RSLoRA、DoRA),以及(3)推理(量化方法:int4、float16)。我们定义了六个细粒度指标(内存利用率、计算利用率、延迟、吞吐量、能耗、压缩率)来衡量硬件饱和度、延迟-吞吐量平衡以及碳成本。通过评估超过 100 对模型-技术组合(0.5B-72B 参数),我们得出了三个核心见解:(i)效率涉及可量化的权衡:没有一种方法是普遍最优的;例如,MoE 减少了 FLOPs 并提高了准确性,但 VRAM 增加了 40%,而 int4 量化可将内存/能源削减高达 3.9 倍,同时准确性下降 3-5%。 (ii)最优解取决于任务和规模:MQA 为资源受限设备提供了最优的内存-延迟权衡,MLA 在对质量要求高的任务中实现了最低困惑度,而 RSLoRA 的效率仅在参数量超过 14B 时才优于 LoRA。 (iii)技术可跨模态泛化:我们将评估扩展到大型视觉模型(Stable Diffusion 3.5、Wan 2.1)和视觉-语言模型(Qwen2.5-VL),证实了有效的可迁移性。通过开源数据集、评估流程和排行榜,EfficientLLM 为研究人员和工程师提供了在下一代基础模型效率-性能领域中导航的必要指导。
查看 arXiv 页面查看 PDF

评论

TyrannosaurusTyrannosaurus
论文提交者

大语言模型(LLM)催生了巨大的进步,然而其不断膨胀的参数量(例如,Deepseek R1 671B)和上下文窗口带来了令人望而却步的计算(GPT-3 训练约需 3640 Petaflop/s-天)、能源和金钱成本(GPT-3 估计超过 460 万美元)。我们介绍了 EfficientLLM,提出了一个新的基准定义,并展示了首次针对 LLM 效率技术的端到端、百级规模实证研究的结果。我们的研究在一个生产级集群(48 × GH200,8 × H200 GPU)上执行——这对于准确测量真实世界的性能和能源权衡至关重要——并基于统一的三轴分类法:架构预训练、微调和推理。具体来说,我们关注这三个方面,因为它们对 LLM 生命周期中的不同利益相关者具有直接的实践意义:(1)架构预训练为设计新模型架构的研究人员和工程师提供了可行的见解,有助于准确预算计算资源和能源成本;(2)微调基准指导将预训练基础模型适应特定下游任务或领域的实践者,帮助他们选择高效的参数高效微调(PEFT)方法;(3)位宽量化评估告知部署工程师如何通过无需重新训练即可直接部署的量化技术有效降低服务成本和延迟。对于架构预训练,我们广泛评估了高效注意力变体(MQA、GQA、MLA、NSA)和稀疏专家混合模型(MoE)。对于微调,我们对各种 PEFT 方法(LoRA、RSLoRA、DoRA)进行了基准测试。对于推理,我们评估了模型压缩方法,包括训练后量化至 int4 和 float16。我们使用六个正交的细粒度指标(平均内存利用率、峰值计算利用率、平均延迟、平均吞吐量、平均能耗、模型压缩率)来共同衡量硬件饱和度、延迟-吞吐量平衡和碳成本。我们的基准评估了超过 100 个模型-技术组合,涵盖 0.5B 至 72B 参数的 LLM,得出了三个核心见解:(i) 效率涉及可量化的权衡:没有一种单一方法是普遍最优的;每种技术都会提高至少一个指标,同时降低另一个指标。例如,MoE 减少了 FLOPs 并提高了准确性,但 VRAM 增加了 40%,而 int4 量化将内存/能源削减高达 3.9 倍,同时任务平均得分下降了 3–5%。(ii) 最优方案取决于任务和规模:效率最优方案高度依赖于上下文。MQA 为受限设备提供了最佳的内存-延迟边界,MLA 为质量关键任务提供了最低的困惑度,而 RSLoRA 仅在参数超过 14B 时才超越 LoRA 的效率,突显了任务、规模和硬件之间的复杂相互作用。(iii) 跨模态的广泛适用性:我们将评估框架扩展到大型视觉模型(LVM)和视觉-语言模型(VLM),将相同的效率技术应用于 Stable Diffusion 3.5、Wan 2.1 和 Qwen2.5-VL 等模型。在 LLM 上验证的技术可以有效迁移,MQA/GQA 提高了 LVM 的生成质量(FID 分数),PEFT 方法实现了良好的性能-效率权衡。我们的研究为这些选定的方面提供了全面的见解,而其他重要的效率相关主题,例如训练基础设施优化、用于训练后对齐的强化学习以及测试时扩展策略,超出了本文的范围。我们在相关工作部分简要回顾了这些额外方向,并强调它们是未来探索的有前景的途径。通过开源数据集、评估流程和排行榜,EfficientLLM 为学术界和工程师探索下一代基础模型的效率-性能图景提供了重要的指南针。