DiLoCoX:面向去中心化集群的低通信大规模训练框架

发表
Arthur DouillardArthur Douillard 提交
作者: Ji Qi, WenPeng Zhu, Li Li, Ming Wu, YingJun Wu, Wu He, Xun Gao, Jason Zeng, Michael Heinrich

摘要

基础模型,特别是大型语言模型(LLM)的分布式训练,需要高水平的通信。因此,它高度依赖于具有快速可靠互连的集中式集群。我们能否在慢速网络上进行训练,从而在处理超过千亿参数的模型时释放去中心化集群的潜力?在本文中,我们提出了 DiLoCoX,一种低通信量的大规模去中心化集群训练框架。它结合了流水线并行、双优化器策略、通信与本地训练的一步延迟重叠,以及自适应梯度压缩方案。这种组合显著提高了参数规模和模型预训练的速度。我们通过收敛性的理论分析,证明了通信与本地训练的一步延迟重叠以及自适应梯度压缩方案的益处。实验结果表明,DiLoCoX 能够在 1Gbps 网络上预训练一个 1070 亿参数的基础模型。与普通的 AllReduce 相比,DiLoCoX 可以在分布式训练中实现 357 倍的加速,同时保持模型收敛性的可忽略不计的退化。据我们所知,这是第一个成功应用于超过千亿参数模型的去中心化训练框架。
查看 arXiv 页面查看 PDF

评论

Arthur DouillardArthur Douillard
论文提交者

Ji Qi, WenPeng Zhu, Li Li, Ming Wu, YingJun Wu, Wu He, Xun Gao, Jason Zeng, Michael Heinrich

基础模型,特别是大语言模型(LLMs)的分布式训练,需要大量的通信。因此,它高度依赖于具有快速可靠互连的中心化集群。当处理超过千亿参数的模型时,我们能否在慢速网络上进行训练,从而释放去中心化集群的潜力?在本文中,我们提出了 DiLoCoX,一种低通信、大规模去中心化集群训练框架。它结合了流水线并行、双优化器策略、通信与本地训练的一步延迟重叠以及自适应梯度压缩方案。这种组合显著提高了参数规模和模型预训练的速度。我们通过收敛性的理论分析,论证了通信与本地训练的一步延迟重叠以及自适应梯度压缩方案的优势。实验证明,DiLoCoX 能够在 1Gbps 网络上预训练一个 1070亿参数的基础模型。与传统的 AllReduce 相比,DiLoCoX 在分布式训练中可以实现 357 倍的加速,同时模型收敛性退化可忽略不计。据我们所知,这是首个成功应用于千亿级以上参数模型的去中心化训练框架。