⏶44
抗异常值安全预训练:实现大型语言模型鲁棒的4位量化
发表
由
Jungwoo Park 提交
作者:
Jungwoo Park, Taewhoo Lee, Chanwoong Yoon, Hyeon Hwang, Jaewoo Kang
摘要
大型语言模型(LLM)中极端的激活异常值严重降低了量化性能,阻碍了高效的设备端部署。尽管通道操作和自适应梯度缩放被认为是其原因,但实际缓解仍然具有挑战性。我们引入了异常值安全预训练(OSP),这是一个实用的指导方针,可以主动防止异常值的形成,而不是依赖事后缓解。OSP结合了三项关键创新:(1)Muon优化器,消除了特权基,同时保持了训练效率;(2)单尺度RMSNorm,防止通道放大;以及(3)可学习的嵌入投影,重新分配源自嵌入矩阵的激活幅度。我们通过在万亿令牌上训练一个14亿参数的模型来验证OSP,这是第一个在没有此类异常值的情况下训练的生产规模LLM。在激进的4位量化下,我们的OSP模型在10个基准测试中平均得分为35.7(而Adam训练模型的平均得分为26.5),训练开销仅为2%。值得注意的是,OSP模型表现出接近零的超额峰度(0.04),而标准模型中的极端值则为1818.56,从根本上改变了LLM的量化行为。我们的工作表明,异常值并非LLM固有的,而是训练策略的后果,为更高效的LLM部署铺平了道路。源代码和预训练检查点可在https://github.com/dmis-lab/Outlier-Safe-Pre-Training获取。
评论
本文的 AI 音频解析 👉 https://arxivexplained.com/papers/outlier-safe-pre-training-for-robust-4-bit-quantization-of-large-language-models
ArXiv: https://www.arxiv.org/abs/2506.19697
GitHub: https://github.com/dmis-lab/Outlier-Safe-Pre-Training
模型集合: https://huggingface.co/collections/dmis-lab/outlier-safe-pre-training-osp-685bda10aa1e8a19fcb58ea8