SINQ:用于无校准低精度 LLM 权重的 Sinkhorn-归一化量化

发表
Philippe BichPhilippe Bich 提交
作者: Lorenz MüllerLorenz K. Müller, Philippe BichPhilippe Bich, Jiawei Zhuang, CelikAhmet Çelik, Luca BenfenatiLuca Benfenati, Lukas CavigelliLukas Cavigelli

摘要

AI 生成总结
SINQ 通过引入第二个轴比例因子和 Sinkhorn-Knopp 式算法来最小化矩阵不平衡,增强了训练后量化,提高了大型语言模型的困惑度。
训练后量化已成为低精度部署大型语言模型最广泛采用的策略。然而,当前的量化方法在比特宽度小于或等于 4 时会出现困惑度下降,部分原因在于表示异常值会导致与这些异常值共享相同尺度的参数出现精度问题。对于无需校准的均匀量化方法而言,这个问题尤为突出。我们引入 SINQ,通过增加一个额外的第二轴尺度因子和一种快速的 Sinkhorn-Knopp 风格算法来增强现有的训练后量化器,该算法可找到用于逐行和逐列方差归一化的尺度,从而最小化我们提出的用于量化的新型每矩阵代理目标:矩阵不平衡。我们的方法在层之间没有相互作用,可以轻松应用于新架构以量化任何线性层。我们在 Qwen3 模型系列和 DeepSeek-V2.5 上评估了我们的方法。与未校准的均匀量化基线相比,SINQ 在 WikiText2 和 C4 困惑度方面取得了显著提升,并且可以通过将其与校准和非均匀量化级别相结合来进一步增强。重现此工作结果并轻松使用 SINQ 量化模型的代码可在 https://github.com/huawei-csl/SINQ 获取。
查看 arXiv 页面查看 PDF
SINQ:用于无校准低精度 LLM 权重的 Sinkhorn-归一化量化

评论

Philippe BichPhilippe Bich
论文作者
论文提交者

欢迎来到 SINQ 项目!🚀

SINQ 是一种新颖、快速、即插即用、无需校准的量化技术,为大型语言模型提供了最先进的性能

我们很高兴分享我们的工作,并期待在此听到您的想法、问题和反馈。我们也将很快上传一些经过 SINQ 量化的模型和相关资源,并热切希望一起讨论想法和潜在的应用!

Philippe BichPhilippe Bich
论文作者
论文提交者

如果您好奇为什么要开始使用 SINQ,请查看我们的GitHub 仓库并考虑给它点个星⭐:https://github.com/huawei-csl/SINQ

NazaryNazary

大家好!

无论其起源如何,我们本地的 AI 社区确实需要这样的解决方案,以便在低 GPU 配置下也能使用大型模型。很高兴看到有针对所有人(而不仅仅是高端硬件用户)的高效模型使用方面的讨论或工具。

Philippe BichPhilippe Bich
论文作者
论文提交者

感谢您 @Hussain2050 的支持!