NoLoCo:用于大型模型的免all-reduce低通信训练方法

发表
BenBen 提交
作者: Jari KolehmainenJari Kolehmainen, Nikolay Blagoev, john donaghyJohn Donaghy, Oguzhan ErsoyOğuzhan Ersoy, Christopher Nies

摘要

大型语言模型的训练通常通过优化方法在包含数万个加速器的集群上进行,这些加速器之间通过高带宽互连进行通信。扩大这些集群的规模成本高昂,且可能变得不切实际,从而限制了可训练模型的尺寸。最近的几项研究提出了通信密集度较低的训练方法,避免了对高度互联计算集群的需求。这些最先进的低通信训练方法仍然采用模型参数的同步步骤,当在所有模型副本上执行时,这在低带宽网络上可能变得代价高昂。 在这项工作中,我们提出了一种新颖的优化方法NoLoCo,它在训练期间不显式同步所有模型参数,因此不需要任何集体通信。NoLoCo通过Nesterov动量优化器的一种新颖变体,通过将模型权重与随机选择的另一个权重进行部分平均,从而隐式同步模型权重。我们提供了所提出优化器的理论收敛性分析以及语言模型训练的经验结果。 我们对NoLoCo在1.25亿到68亿参数的广泛加速器数量和模型尺寸范围内进行了基准测试。与完全分片数据并行训练甚至广泛使用的低通信训练方法DiLoCo相比,我们的方法所需的通信开销显著更少。对于通过互联网训练的数百个加速器,其同步步骤本身估计比DiLoCo中使用的all-reduce快一个数量级。我们也没有任何减少加速器空闲时间的全局阻塞通信。与DiLoCo相比,我们还观察到在各种模型尺寸和加速器数量下,收敛速度最高可提高4%。
查看 arXiv 页面查看 PDF
NoLoCo:用于大型模型的免all-reduce低通信训练方法

评论

BenBen
论文提交者

NoLoCo 通过异构八卦网络训练大型模型,而不是通过高带宽数据中心进行训练。与最先进的方法相比,它将同步延迟降低了 10 倍,同时以 4% 更快的速度收敛到相同的验证损失。