通过适当的权重衰减调整实现稳健的层级缩放规则

发表
Yifeng LiuYifeng Liu 提交
作者: Zhiyuan Fan, Yifeng LiuYifeng Liu, Qingyue Zhao, Angela Yuan, Quanquan Gu

摘要

AI 生成总结
引入了一种新的 AdamW 权重衰减缩放规则,以在现代尺度不变架构中跨宽度保留子层增益,从而实现了学习率和权重衰减的零样本迁移。
经验性规模定律规定了如何分配参数、数据和计算资源,而最大更新参数化(muP)通过均衡早期更新幅度来实现跨宽度的学习率迁移。然而,在现代尺度不变架构中,训练会迅速进入一个由优化器控制的稳态,此时归一化层会产生反向尺度敏感性,并且有效学习率会随着宽度而变化,从而降低了 muP 的迁移效果。我们通过引入一种 AdamW 的权重衰减缩放规则来解决这个问题,该规则可以保持子层增益跨宽度不变。经验上,每个矩阵参数的奇异值谱以 eta/lambda 的范数进行缩放,形状近似不变;在宽度缩放 d 下,我们观察到顶部的奇异值大致缩放为 eta/lambda * d^{0.75}。将这一观察与矩阵类参数的 muP 学习率规则 eta_2 propto d^{-1} 相结合,意味着经验性权重衰减缩放规则 lambda_2 propto d,它大致保持子层增益宽度不变。结合在 eta_1=Theta_d(1) 和 lambda_1=0 下训练的向量类参数,这实现了从代理宽度到目标宽度的学习率和权重衰减的零样本迁移,从而消除了每个宽度的扫描。我们在 LLaMA 风格的 Transformer 和最小合成设置上验证了该规则,并提供了一个简单的诊断方法(匹配顶奇异值)来检查子层增益不变性。我们的结果将 muP 扩展到了近初始阶段之外,通过显式控制优化器设置的稳态尺度,为 AdamW 下的宽度鲁棒超参数迁移提供了一个实用的方法。
查看 arXiv 页面查看 PDF

评论

Yifeng LiuYifeng Liu
论文作者
论文提交者

我们的发现揭示了 AdamW 优化器上 μP 的潜在新物理定律:经验表明,每个矩阵参数的奇异值谱在范数上缩放为 \sqrt{η/λ},且形状近似不变;在宽度缩放 d 下,我们观察到顶层奇异值近似缩放为 \sqrt{η/λ}d^{0.75}。将这一观察与 η2 与矩阵类参数的 1/d 成比例的 μP 学习率规则相结合,意味着经验性的权重衰减缩放规则 λ2 \propto \sqrt{d},该规则近似保持子层增益宽度不变。与在 η1=Θd(1) 和 λ_1=0 下训练的类向量参数结合,这实现了从代理宽度到目标宽度的学习率和权重衰减的 *零样本** 迁移,消除了每个宽度的扫描。