⏶36
驯服LLM:通过梯度分组缩放学习率
发表
由
Zedong Wang (Jacky) 提交

作者:
Siyuan Li,
Juanxi Tian,
Zedong Wang,
Xin Jin, Zicheng Liu, Wentao Zhang,
Dan Xu




摘要
训练大型语言模型(LLM)由于其庞大的规模和异构架构而面临挑战。尽管像 AdamW 这样的自适应优化器有助于解决梯度变化问题,但它们在高效且有效的参数级学习率估计方面仍然面临困难,导致训练不稳定、收敛速度慢以及与参数高效微调(PEFT)技术兼容性差。这项工作引入了梯度分组缩放(SGG),这是一种优化器封装器,它通过动态分组和特定组缩放来改进自适应学习率估计。SGG 首先将每一层中的梯度统计数据分组到簇中,然后应用特定簇的缩放来校准每个参数的学习率,从而在保持精确的逐参数适应的同时施加集体分组约束。在多样化的(M)LLM 基准测试上的实验表明,SGG 可以与现有优化器无缝集成,并且对于各种模型尺寸,相比基线模型提供了持续的增益和更快的收敛速度。其在不同批量大小和学习率下的稳定性使 SGG 成为 LLM 优化的可靠选择。
[ACL 2025 主会] 通过梯度分组扩展学习率来驯服 LLM