⏶28
人迹罕至的道路
05月24日发表
04月12日由
AK 提交

作者:
Aaron Defazio, Xingyu, Yang, Harsh Mehta,
Konstantin Mishchenko, Ahmed Khaled,
Ashok Cutkosky

摘要
现有的不需要指定优化停止步骤 T 的学习率计划大大逊色于依赖于 T 的学习率计划。我们提出了一种方法,通过完全避免使用计划来避免对停止时间的需求,同时在从凸问题到大规模深度学习问题的广泛问题家族中,与计划相比,表现出最先进的性能。我们的无计划方法在具有动量的标准优化器之上没有引入额外的超参数。我们的方法是我们开发的新理论的直接结果,该理论统一了计划和迭代平均。我们的方法的开源实现是可用的 (https://github.com/facebookresearch/schedule_free)。
评论
掌握人工智能:无计划学习革命
链接 🔗:
👉 订阅: https://www.youtube.com/@Arxflix
👉 Twitter: https://x.com/arxflix
👉 LMNT (合作伙伴): https://lmnt.com/
作者:Arxflix
@librarian-bot 推荐