人迹罕至的道路

05月24日发表
04月12日由 AKAK 提交
作者: Aaron DefazioAaron Defazio, Xingyu, Yang, Harsh Mehta, Konstantin MishchenkoKonstantin Mishchenko, Ahmed Khaled, Ashok CutkoskyAshok Cutkosky

摘要

现有的不需要指定优化停止步骤 T 的学习率计划大大逊色于依赖于 T 的学习率计划。我们提出了一种方法,通过完全避免使用计划来避免对停止时间的需求,同时在从凸问题到大规模深度学习问题的广泛问题家族中,与计划相比,表现出最先进的性能。我们的无计划方法在具有动量的标准优化器之上没有引入额外的超参数。我们的方法是我们开发的新理论的直接结果,该理论统一了计划和迭代平均。我们的方法的开源实现是可用的 (https://github.com/facebookresearch/schedule_free)

评论

JadeJade

@librarian-bot 推荐

Eni GrandEni Grand

在附录 G.2、G.3、G.5 和 G.6 中,有一个名为 Schedule-Free warmup 的超参数,设置为 5%。

如果您事先不知道优化停止时间 T,如何设置此超参数?

Aaron DefazioAaron Defazio
论文作者

通常,您只需将预热参数设置为固定的步数即可,无需根据训练运行的长度进行缩放。附录中的百分比只是为了更容易看出预热持续了多长时间。

Eni GrandEni Grand
此评论已隐藏。
Eni GrandEni Grand

感谢您的澄清。

Julien BLANCHONJulien BLANCHON
掌握人工智能:无计划学习革命

https://cdn-uploads.huggingface.co/production/uploads/6186ddf6a7717cb375090c01/AnvEFzh6TWkjJ-GltYH89.mp4

链接 🔗:

👉 订阅: https://www.youtube.com/@Arxflix

👉 Twitter: https://x.com/arxflix

👉 LMNT (合作伙伴): https://lmnt.com/

作者:Arxflix

9t4iCUHx_400x400-1.jpg