⏶6

any4：用于大型语言模型的学习型4位数值表示

07月07日发表

07月09日由 Mostafa Elhoushi 提交

作者: Mostafa Elhoushi, Jeff Johnson

摘要

我们提出了 any4，一种用于大型语言模型 (LLM) 的学习型 4 位权重量化解决方案，它提供任意数值表示，无需对权重或激活进行预处理。any4 在各种模型大小、代次和系列（Llama 2、Llama 3、Mistral 和 Mixtral）上进行评估，与 int4、fp4 和 nf4 等其他相关 4 位数值表示类型相比，产生了更高的精度。虽然 any4 不需要对权重或激活进行预处理，但它在与其他需要此类预处理的正交技术（例如 AWQ 和 GPTQ）方面也具有竞争力。我们还实验了 any3 和 any2，并展示了在较低比特下的竞争力。此外，我们展示了可以使用单个精心策划的多种样本进行校准，而不是像大多数量化方法那样使用数据集中数百个样本。我们还开源了 tinygemm，一个针对 LLM 的延迟优化 GPU 矩阵乘法库，它使用 GPU 高效查找表策略以及其他常见的量化方法来实现 any4。我们的代码已在 https://github.com/facebookresearch/any4 开源。

查看 arXiv 页面查看 PDF

Mostafa Elhoushi

论文作者

论文提交者

我们引入了any4，一种新的针对大型语言模型的4比特权重量化方法，该方法用为权重矩阵每一行设计的学习型查找表（LUT）取代了int4、fp4或nf4等固定码本。这种每行灵活性使得any4能够将4比特编码映射到任意浮点值，显著提高了Llama 2/3、Mistral和Mixtral等模型的量化精度。any4校准高效，仅需少量数据且无需处理异常值，同时仍能匹配或超越GPTQ和AWQ等更复杂的方法。

我们还发布了tinygemm，一个用于低延迟推理的GPU优化库，它不仅支持any4，还支持int4、int8和nf4：

https://github.com/facebookresearch/any4

any4：用于大型语言模型的学习型4位数值表示

摘要

评论