XQuant: 通过KV Cache重实例化打破LLM推理的内存墙

发表
Aditya TomarAditya Tomar 提交
作者: Aditya TomarAditya Tomar, Coleman Hooper, Minjae LeeMinjae Lee, Haocheng Xi, Rishabh TiwariRishabh Tiwari, Wonjun KangWonjun Kang, Luca Manolache, Michael W. Mahoney, Kurt Keutzer, Amir Gholami

摘要

尽管 LLM 推理已成为许多下游应用的关键工作负载,但由于巨大的内存占用和带宽要求,有效推断 LLM 具有挑战性。与此同时,在过去的几十年里,计算能力一直在稳步超过内存容量和带宽,这种趋势在现代 GPU 硬件中仍然很明显,并加剧了 LLM 推理的挑战。因此,新的算法正在出现,它们以增加计算量换取减少内存操作。为此,我们提出了 XQuant,它利用了这一趋势,通过低位量化实现内存消耗数量级的减少,并且相对于最先进的 KV 缓存量化方法具有显著的精度优势。我们通过量化和缓存层输入激活 X 来实现这一点,而不是使用标准 KV 缓存,然后在推理期间动态重新实例化键和值。与 KV 缓存相比,这立即节省了 2 倍的内存。通过应用 XQuant,我们实现了高达 7.7 倍的内存节省,而困惑度退化小于 0.1,与 FP16 基线相比。此外,我们的方法利用了 X 值在层间相似的事实。基于这一观察,我们引入了 XQuant-CL,它利用 X 嵌入中的跨层相似性实现极限压缩。在不同的模型中,XQuant-CL 相对于 FP16 基线实现了高达 10 倍的内存节省,困惑度退化仅为 0.01,并且以 0.1 的困惑度退化实现了 12.5 倍的内存节省。XQuant 利用硬件平台快速增长的计算能力来消除内存瓶颈,同时超越最先进的 KV 缓存量化方法,并在广泛的模型中实现接近 FP16 的精度。
查看 arXiv 页面查看 PDF

评论

Aditya TomarAditya Tomar
论文作者
论文提交者

论文: https://arxiv.org/pdf/2508.10395