Muon用于预训练的实用效率

发表
AKAK 提交
作者: Research at Essential AIEssential AI, Ishaan ShahIshaan Shah, Anthony PollorenoAnthony M. Polloreno, Karl StratosKarl Stratos, Philip MonkPhilip Monk, Adarsh ChaluvarajuAdarsh Chaluvaraju, Andrew HojelAndrew Hojel, Andrew MaAndrew Ma, Anil Thomas, Ashish Tanwer, Darsh J Shah, Khoi NguyenKhoi Nguyen, Kurt Smith, Michael Callahan, Michael PustMichael Pust, Mohit ParmarMohit Parmar, Peter Rushton, Platon MazarakisPlaton Mazarakis, Ritvik KapilaRitvik Kapila, Saurabh Srivastava, Somanshu SinglaSomanshu Singla, Tim RomanskiTim Romanski, Yash VanjaniYash Vanjani, Ashish Vaswani

摘要

我们证明 Muon,作为二阶优化器最简单的实例化,在计算-时间权衡上明确地扩展了相对于 AdamW 的帕累托前沿。我们发现 Muon 在大批量大小下保留数据效率方面比 AdamW 更有效,远超过所谓的临界批量大小,同时仍保持计算效率,从而实现更经济的训练。我们研究了 Muon 和最大更新参数化 (muP) 的结合,以实现高效的超参数迁移,并提出了一种简单的伸缩算法,该算法考虑了 muP 中的所有误差源,同时仅引入了适度的资源开销。我们通过对高达 40 亿参数的模型进行大量实验,以及在数据分布和架构上的消融研究,验证了我们的发现。
查看 arXiv 页面查看 PDF

评论

AKAK
论文提交者

Screenshot 2025-05-06 at 11.00.09 AM.png