⏶20
大型语言模型预训练优化器基准测试
发表
由
Andrei Semenov 提交

作者:
Andrei Semenov,
Matteo Pagliardini,
Martin Jaggi

摘要
近年来,大型语言模型(LLMs)的发展伴随着大量新颖的创意和方法,旨在更好地优化深度学习模型的损失。这些方法声称的好处多种多样,从更快的收敛速度到消除对某些超参数的依赖。然而,用于验证这些声明的实验协议各不相同,这使得方法之间的直接比较变得困难。本研究在标准化的LLM预训练场景下,对近期优化技术进行了全面的评估,系统地改变了模型大小、批次大小和训练时长。通过对每种方法的仔细调整,我们为实践者提供了关于哪种优化器最适合每种场景的指导。对于研究人员而言,我们的工作为未来的优化研究指明了有前景的方向。最后,通过发布我们的代码并使所有实验完全可复现,我们希望我们的努力能够帮助未来方法的开发和严格的基准测试。







一项针对流行的优化器(12个!)的近期基准测试工作,并在过程中进行了大量的消融实验。
它涵盖了: 批次大小与迭代次数的缩放,预热,学习率敏感性与学习率衰减,对大权重衰减的消融,对学习率调度器的敏感性,扩展到 MoE,优化器特定超参数的消融,等等!