⏶34
Muon用于预训练的实用效率
发表
由
AK 提交

作者:
Essential AI,
Ishaan Shah,
Anthony M. Polloreno,
Karl Stratos,
Philip Monk,
Adarsh Chaluvaraju,
Andrew Hojel,
Andrew Ma, Anil Thomas, Ashish Tanwer, Darsh J Shah,
Khoi Nguyen, Kurt Smith, Michael Callahan,
Michael Pust,
Mohit Parmar, Peter Rushton,
Platon Mazarakis,
Ritvik Kapila, Saurabh Srivastava,
Somanshu Singla,
Tim Romanski,
Yash Vanjani, Ashish Vaswani



摘要
我们证明 Muon,作为二阶优化器最简单的实例化,在计算-时间权衡上明确地扩展了相对于 AdamW 的帕累托前沿。我们发现 Muon 在大批量大小下保留数据效率方面比 AdamW 更有效,远超过所谓的临界批量大小,同时仍保持计算效率,从而实现更经济的训练。我们研究了 Muon 和最大更新参数化 (muP) 的结合,以实现高效的超参数迁移,并提出了一种简单的伸缩算法,该算法考虑了 muP 中的所有误差源,同时仅引入了适度的资源开销。我们通过对高达 40 亿参数的模型进行大量实验,以及在数据分布和架构上的消融研究,验证了我们的发现。
评论

论文提交者