any4:用于大型语言模型的学习型4位数值表示

发表
Mostafa ElhoushiMostafa Elhoushi 提交
作者: Mostafa ElhoushiMostafa Elhoushi, Jeff Johnson

摘要

我们提出了 any4,一种用于大型语言模型 (LLM) 的学习型 4 位权重量化解决方案,它提供任意数值表示,无需对权重或激活进行预处理。any4 在各种模型大小、代次和系列(Llama 2、Llama 3、Mistral 和 Mixtral)上进行评估,与 int4、fp4 和 nf4 等其他相关 4 位数值表示类型相比,产生了更高的精度。虽然 any4 不需要对权重或激活进行预处理,但它在与其他需要此类预处理的正交技术(例如 AWQ 和 GPTQ)方面也具有竞争力。我们还实验了 any3 和 any2,并展示了在较低比特下的竞争力。此外,我们展示了可以使用单个精心策划的多种样本进行校准,而不是像大多数量化方法那样使用数据集中数百个样本。我们还开源了 tinygemm,一个针对 LLM 的延迟优化 GPU 矩阵乘法库,它使用 GPU 高效查找表策略以及其他常见的量化方法来实现 any4。我们的代码已在 https://github.com/facebookresearch/any4 开源。
查看 arXiv 页面查看 PDF

评论

Mostafa ElhoushiMostafa Elhoushi
论文作者
论文提交者

我们引入了any4,一种新的针对大型语言模型的4比特权重量化方法,该方法用为权重矩阵每一行设计的学习型查找表(LUT)取代了int4、fp4或nf4等固定码本。这种每行灵活性使得any4能够将4比特编码映射到任意浮点值,显著提高了Llama 2/3、Mistral和Mixtral等模型的量化精度。any4校准高效,仅需少量数据且无需处理异常值,同时仍能匹配或超越GPTQ和AWQ等更复杂的方法。

我们还发布了tinygemm,一个用于低延迟推理的GPU优化库,它不仅支持any4,还支持int4、int8和nf4:

https://github.com/facebookresearch/any4