⏶4
谨慎的权重衰减
发表
由
Kaizhao Liang 提交
作者:
Lizhang Chen, Jonathan Li, Kaizhao Liang, Baiyu Su, Cong Xie, Nuo Wang Pierse, Chen Liang, Ni Lao, Qiang Liu
摘要
AI 生成总结
Cautious Weight Decay (CWD) 通过选择性地应用权重衰减来提高优化器性能,在大规模模型中无需额外调优即可提高准确率和损失。我们引入了 Cautious Weight Decay (CWD),一种一行代码、与优化器无关的修改,仅将权重衰减应用于符号与优化器更新一致的参数坐标。与标准解耦衰减(隐式优化正则化或约束目标)不同,CWD 保留了原始损失并具有双层解释:当达到稳定流形时,它会诱导滑模行为,从而允许它搜索未修改目标的局部帕累托最优稳定点。在实践中,CWD 是 AdamW、Lion 和 Muon 等优化器的即插即用更改,不需要新的超参数或额外的调整。对于语言模型预训练和 ImageNet 分类,CWD 在百万到十亿参数规模上始终能改善最终损失和准确率。
我们引入了谨慎权重衰减 (CWD),这是一种一行代码、优化器无关的修改,它只将权重衰减应用于其符号与优化器更新一致的参数坐标。
与标准的解耦衰减不同,解耦衰减隐式优化了正则化或约束的目标,CWD 保留了原始损失并允许双层解释:它在到达稳态流形时会诱导滑模行为,使其能够搜索未修改目标的局部帕累托最优稳态点。 实际上,CWD 是 AdamW、Lion 和 Muon 等优化器的即插即用更改,无需新的超参数或额外的调优。
在语言模型预训练和 ImageNet 分类方面,CWD 在数百万到数十亿参数的规模上始终能改善最终损失和准确性。