Metis:使用先进的低比特量化训练大型语言模型

发表
Tiezhen WANGTiezhen WANG 提交
作者: Hengjie Cao, Mengyi ChenMengyi Chen, YIFENG YANGYifeng Yang, Ruijun Huang, Fang Dong, Jixian ZhouJixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, jinlong houJinlong Hou, Yuan Cheng, Fan Wu, Fan Yang, Tun Lu, Ning Gu, Li Shang

摘要

这项工作将各向异性参数分布确定为训练低比特量化大型语言模型(LLMs)的一个根本性障碍:少数占主导地位的奇异值产生了宽泛的数值范围,这与块状量化的固有偏差相冲突。这种偏差不成比例地保留了高幅度值而丢弃了较小的值,导致训练不稳定和模型性能低下。这项工作引入了 Metis,一个结合了 (i) 谱分解与随机嵌入以有效解耦占主导地位的成分与长尾成分,将宽泛的分布压缩成量化友好的窄范围;(ii) 谱域中的自适应学习率以放大未充分代表的方向并更好地捕捉对性能至关重要的多样化特征;以及 (iii) 双范围正则化器,该正则化器共同约束数值精度和参数范围分布,确保稳定、无偏的低比特训练。通过 Metis,FP8 训练超越了 FP32 基线,而 FP4 训练实现了与 FP32 相当的准确性,为在先进低比特量化下进行稳健且可扩展的 LLM 训练铺平了道路。Metis 的代码实现可在以下网址获得:https://github.com/typename-yyf/Metis-quantization
查看 arXiv 页面查看 PDF

评论

Tiezhen WANGTiezhen WANG
论文提交者

关于低比特训练的有趣论文!