模型保持自适应舍入

发表
Albert TsengAlbert Tseng 提交
作者: Albert TsengAlbert Tseng, Zhaofeng SunZhaofeng Sun, Christopher De Sa

摘要

训练后量化(PTQ)的主要目标是生成一个压缩模型,其输出分布尽可能接近原始模型的输出分布。为了可行地做到这一点,几乎所有 LLM PTQ 算法都通过独立地最小化即时激活误差来量化线性层。然而,这个局部目标忽略了后续层的影响,因此减小它并不一定能得到一个更接近的模型。在这项工作中,我们提出了一种名为 Yet Another Quantization Algorithm (YAQA) 的自适应舍入算法,该算法利用了关于整个模型 KL 散度的每个线性层 Hessian 的 Kronecker-分解近似。YAQA 由两部分组成:一是整个层间 Hessian 的 Kronecker-分解草图,这些草图对于千亿参数的 LLM 可以可行地计算;二是利用这些草图并附带理论保证的与量化器无关的舍入算法。在广泛的模型和量化器上,YAQA 经验性地将与原始模型的 KL 散度降低了约 30%,同时在下游任务上实现了最先进的性能。
查看 arXiv 页面查看 PDF

评论

Albert TsengAlbert Tseng
论文作者
论文提交者

一种新的量化算法,它通过使用比 GPTQ 及类似方法中常用的 Hessian 估计更好的估计,直接最小化了与原始模型的端到端 KL。该方法实现了最先进的下游任务性能,并将相对于基于 GPTQ 的方法的 KL 减少到三分之一。在相对于原始模型的 KL 方面,该方法甚至在 Gemma 3 上优于 Google 的 QAT。