⏶23
Qwen3量化的一项实证研究
发表
由
Xingyu Zheng 提交

作者:
Xingyu Zheng, Yuye Li,
Haoran Chu, Yue Feng, Xudong Ma, Jie Luo, Jinyang Guo, Haotong Qin, Michele Magno, Xianglong Liu

摘要
Qwen系列已成为领先的开源大型语言模型(LLMs)家族,在自然语言理解任务中展现了卓越的能力。随着近期Qwen3的发布(其在各种基准测试中表现出优越性能),人们对其在资源受限环境中高效部署的兴趣日益增长。低位量化提供了一种有前景的解决方案,但其对Qwen3性能的影响仍未得到充分探索。本研究系统地评估了Qwen3在各种量化设置下的鲁棒性,旨在揭示压缩这一最先进模型的机遇与挑战。我们严格评估了应用于Qwen3的5种现有经典训练后量化技术,涵盖1到8比特的位宽,并在多个数据集上评估了它们的有效性。我们的发现表明,尽管Qwen3在中等位宽下保持了有竞争力的性能,但在超低精度下,其在语言任务中的性能出现了显著下降,这突显了LLM压缩中持续存在的难题。这些结果强调了需要进一步研究来减轻极端量化场景下的性能损失。我们预计这项实证分析将为推进针对Qwen3和未来LLMs量化方法的定制提供可操作的见解,最终在不损害精度的情况下增强其实用性。我们的项目已发布在 https://github.com/Efficient-ML/Qwen3-Quantization 和 https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b。

我们严格评估了应用于 Qwen3 的5 种现有经典后训练量化技术,涵盖了从 1 到 8 位的位宽,并在多个数据集上评估了它们的有效性。我们的发现表明,虽然 Qwen3 在中等位宽下保持了竞争力,但在超低精度下的语言任务中表现明显下降,这突显了 LLM 压缩中持续存在的障碍。
📄 论文:https://arxiv.org/abs/2505.02214
💻 GitHub:GitHub
🤗 模型:Hugging Face