量化邂逅 dLLMs:扩散大语言模型(Diffusion LLMs)训练后量化系统的研究

发表
Haokun LinHaokun Lin 提交
作者: Haokun LinHaokun Lin, Haobo Xu, Yichen WuYichen Wu, Ziyu GuoZiyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu ZhangQingfu Zhang, Zhenan Sun

摘要

扩散大型语言模型 (dLLM) 的最新进展为自回归 (AR) LLM 在自然语言生成任务上提供了一个有前途的替代方案,利用了全注意力机制和去噪解码策略。然而,由于其庞大的参数规模和高资源需求,这些模型在边缘设备上的部署仍然具有挑战性。尽管训练后量化 (PTQ) 已成为压缩 AR LLM 的一种广泛采用的技术,但其在 dLLM 上的适用性仍未得到充分探索。在这项工作中,我们对扩散语言模型的量化进行了首次系统性研究。我们首先识别了激活离群值的存在,其特征是异常大的激活值主导了动态范围。这些离群值对低比特量化构成了关键挑战,因为它们使得保留大多数值的精度变得困难。更重要的是,我们实现了最先进的 PTQ 方法,并在多种任务类型和模型变体上进行了全面评估。我们的分析结构化为四个关键维度:比特宽度、量化方法、任务类别和模型类型。通过这种多视角评估,我们为 dLLM 在不同配置下的量化行为提供了实践见解。我们希望我们的发现能为高效 dLLM 部署的未来研究奠定基础。所有代码和实验设置将公开,以支持社区。
查看 arXiv 页面查看 PDF

评论

Haokun LinHaokun Lin
论文作者
论文提交者

扩散式大语言模型(dLLMs)的最新进展为自然语言生成任务提供了一种有前途的替代自回归(AR)LLM的方法,它利用了全注意力(full attention)和去噪(denoising)解码策略。然而,由于这些模型参数规模巨大且资源需求高,在边缘设备上的部署仍然充满挑战。尽管训练后量化(PTQ)已成为压缩AR LLM的常用技术,但其在dLLMs上的适用性在很大程度上仍未被探索。在这项工作中,我们首次系统地研究了基于扩散语言模型的量化问题。我们首先识别了激活离群值(activation outliers)的存在,其特征是异常大的激活值,主导了动态范围。这些离群值对低比特量化提出了关键挑战,因为它们使得为大多数值保留精度变得困难。更重要的是,我们实现了最先进的PTQ方法,并在多种任务类型和模型变体上进行了全面的评估。我们的分析围绕四个关键维度进行:比特宽度(bit-width)、量化方法(quantization method)、任务类别(task category)和模型类型(model type)。通过这种多角度的评估,我们为dLLMs在不同配置下的量化行为提供了实用的见解。我们希望我们的研究成果能为未来高效dLLM部署的研究奠定基础。所有代码和实验设置都将发布以支持社区。