⏶10
精彩的预训练优化器及其出处
发表
由
Elie Bakouch 提交

作者: Kaiyue Wen, David Hall, Tengyu Ma, Percy Liang
摘要
尽管有大量关于其他优化器能提供 1.4 到 2 倍加速的说法,但 AdamW 长期以来一直是语言模型预训练中的主流优化器。我们认为,两个方法上的缺点模糊了公平的比较并阻碍了实际应用:(i)不平等的超参数调整和(ii)有限或误导性的评估设置。为了解决这两个问题,我们对四种模型规模(0.1B-1.2B 参数)和数据到模型比例(1-8 倍 Chinchilla 最优值)的十个深度学习优化器进行了系统研究。我们发现,公平且信息量大的比较需要在模型规模和数据到模型比例的范围内进行严格的超参数调整和评估,并在训练结束时进行。首先,一个优化器的最佳超参数可能对另一个优化器不是最优的,使得盲目的超参数转移是不公平的。其次,许多提出的优化器相对于经过良好调整的基线的实际加速比低于声称的水平,并且随着模型规模的增大而减小,对于 1.2B 参数模型仅为 1.1 倍。第三,在达到目标训练预算之前比较中间的检查点可能会产生误导,因为由于学习率衰减,优化器之间的排名可能会在训练过程中发生变化。通过我们详尽的调查,我们发现所有最快的优化器,如 Muon 和 Soap,都使用矩阵作为预条件器——将梯度与矩阵相乘,而不是逐项标量。然而,基于矩阵的优化器的加速比与模型规模成反比,从 0.1B 参数模型的相对于 AdamW 的 1.4 倍降至 1.2B 参数模型的仅 1.1 倍。
关于优化器的非常好的研究