抗异常值安全预训练:实现大型语言模型鲁棒的4位量化

发表
Jungwoo ParkJungwoo Park 提交
作者: Jungwoo ParkJungwoo Park, Taewhoo Lee, Chanwoong Yoon, Hyeon Hwang, Jaewoo Kang

摘要

大型语言模型(LLM)中极端的激活异常值严重降低了量化性能,阻碍了高效的设备端部署。尽管通道操作和自适应梯度缩放被认为是其原因,但实际缓解仍然具有挑战性。我们引入了异常值安全预训练(OSP),这是一个实用的指导方针,可以主动防止异常值的形成,而不是依赖事后缓解。OSP结合了三项关键创新:(1)Muon优化器,消除了特权基,同时保持了训练效率;(2)单尺度RMSNorm,防止通道放大;以及(3)可学习的嵌入投影,重新分配源自嵌入矩阵的激活幅度。我们通过在万亿令牌上训练一个14亿参数的模型来验证OSP,这是第一个在没有此类异常值的情况下训练的生产规模LLM。在激进的4位量化下,我们的OSP模型在10个基准测试中平均得分为35.7(而Adam训练模型的平均得分为26.5),训练开销仅为2%。值得注意的是,OSP模型表现出接近零的超额峰度(0.04),而标准模型中的极端值则为1818.56,从根本上改变了LLM的量化行为。我们的工作表明,异常值并非LLM固有的,而是训练策略的后果,为更高效的LLM部署铺平了道路。源代码和预训练检查点可在https://github.com/dmis-lab/Outlier-Safe-Pre-Training获取。
查看 arXiv 页面查看 PDF

评论

Eni GrandEni Grand

您好!

关于如何使LLM更好地适应量化,贵团队的工作非常出色。

我对论文中的表3有两点疑问,该表中您将OSP LLM与在量化设置下的其他LLM进行了比较。

  1. 量化设置是W4A4KV4,对吗?

  2. 您能解释一下用于其他LLM的量化方法和超参数吗?