任意步长:一种用于预算迭代训练的统一学习率调度

发表
Yutao ZengYutao Zeng 提交
作者: Anda Tang, Yiming Dong, Yutao ZengYutao Zeng, zhou Xun, Zhouchen Lin

摘要

计算机成本的不断增长和资源的有限性,凸显了预算迭代训练的迫切需求,该训练旨在预设的迭代预算内实现最佳学习。尽管学习率调度在根本上决定了不同网络和任务的性能,尤其是在预算迭代场景中,但其设计仍主要基于启发式方法,缺乏理论基础。此外,选择最佳学习率调度需要大量的试错,导致训练过程效率低下。在这项工作中,我们提出了统一预算感知(UBA)调度,这是一种有理论依据的学习率调度,在不同受限训练预算下,它在各种架构和任务中始终优于常用调度。首先,我们通过构建一个新颖的训练预算感知优化框架来弥补这一空白,该框架明确考虑了对损失函数曲率变化的鲁棒性。从该框架中,我们推导出了UBA调度,它由一个单一的超参数varphi控制,在灵活性和简单性之间提供了权衡,消除了针对每个网络进行数值优化的需要。此外,我们建立了varphi与条件数之间的理论联系,为我们的方法增加了阐释和 обоснование。此外,我们证明了对于不同varphi值的收敛性。我们通过理论分析和实证结果为其选择提供了实用指导。大量的实验结果表明,在不同的训练迭代预算下,UBA在各种视觉和语言任务中,以及跨越不同网络架构(例如,ResNet、OLMo)和规模的情况下,始终超越了常用调度。
查看 arXiv 页面查看 PDF
任意步长:一种用于预算迭代训练的统一学习率调度
任意步长:一种用于预算迭代训练的统一学习率调度
任意步长:一种用于预算迭代训练的统一学习率调度
任意步长:一种用于预算迭代训练的统一学习率调度

评论

Yutao ZengYutao Zeng
论文作者
论文提交者

不断增长的计算成本凸显了进行预算迭代训练的必要性。当前的学习率调度大多是启发式的且效率低下。本文介绍了一种统一预算感知 (UBA) 调度方法,该方法基于理论,并在各种架构和任务中均优于传统调度。UBA 调度由单一超参数 \phi 控制,该参数兼顾了灵活性和简洁性,并得到了理论分析和实验结果的支持,这些结果表明其在受限训练预算下的有效性。