驯服LLM:通过梯度分组缩放学习率

发表
Zedong Wang (Jacky)Zedong Wang (Jacky) 提交
作者: Siyuan LiSiyuan Li, Juanxi TianJuanxi Tian, Zedong Wang (Jacky)Zedong Wang, JinXin Jin, Zicheng Liu, Wentao Zhang, Dan XuDan Xu

摘要

训练大型语言模型(LLM)由于其庞大的规模和异构架构而面临挑战。尽管像 AdamW 这样的自适应优化器有助于解决梯度变化问题,但它们在高效且有效的参数级学习率估计方面仍然面临困难,导致训练不稳定、收敛速度慢以及与参数高效微调(PEFT)技术兼容性差。这项工作引入了梯度分组缩放(SGG),这是一种优化器封装器,它通过动态分组和特定组缩放来改进自适应学习率估计。SGG 首先将每一层中的梯度统计数据分组到簇中,然后应用特定簇的缩放来校准每个参数的学习率,从而在保持精确的逐参数适应的同时施加集体分组约束。在多样化的(M)LLM 基准测试上的实验表明,SGG 可以与现有优化器无缝集成,并且对于各种模型尺寸,相比基线模型提供了持续的增益和更快的收敛速度。其在不同批量大小和学习率下的稳定性使 SGG 成为 LLM 优化的可靠选择。
查看 arXiv 页面查看 PDF

评论

Zedong Wang (Jacky)Zedong Wang (Jacky)
论文作者
论文提交者

[ACL 2025 主会] 通过梯度分组扩展学习率来驯服 LLM

Siyuan LiSiyuan Li
论文作者

欢迎大家讨论针对LLM/MLLM的全新优化范式!
SGG_intro.png

Siyuan LiSiyuan Li
论文作者

SGG算法概述,该算法可与流行的DNN优化器即插即用。
SGG_algo.png