⏶17
Horizon-LM:一种以 RAM 为中心的 LLM 训练架构
发表
由
Zhengqing Yuan 提交
作者: Zhengqing Yuan, Lichao Sun, Yanfang, Ye
摘要
AI 生成总结
Horizon-LM 通过重新定义 CPU-GPU 角色,并通过显式重计算和流水线执行消除持久性 GPU 内存占用,实现了在单 GPU 上训练大型模型。大语言模型(LLM)的飞速增长已超过了单 GPU 硬件的发展速度,使得模型规模日益受限于内存容量而非计算能力。虽然现代训练系统通过分布式并行以及在 CPU 和存储层之间进行卸载来扩展 GPU 内存,但它们在根本上保留了以 GPU 为中心的执行范式,其中 GPU 托管持久的模型副本和完整的自动微分图。因此,扩展大模型仍与多 GPU 集群、复杂的分布式运行时和不可预测的主机内存消耗紧密耦合,这为指令微调、对齐和领域自适应等节点级后训练工作负载造成了巨大障碍。我们展示了 Horizon-LM,这是一种以内存为中心的训练系统,重新定义了 CPU 和 GPU 在大模型优化中的角色。Horizon-LM 将主机内存视为权威参数存储,并仅通过“CPU 为主、GPU 为模板”的执行模型将 GPU 用作瞬态计算引擎。通过消除持久驻留在 GPU 的模块和自动微分图、采用带有手动梯度传播的显式重计算,并引入流水线双缓冲执行引擎,Horizon-LM 将模型规模与 GPU 数量解耦,并将内存使用限制在理论参数占用范围内。在具有 1.5TB 主机 RAM 的单台 H200 GPU 上,Horizon-LM 能够可靠地训练高达 120B 参数的模型。在标准的单 A100 机器上,Horizon-LM 在保持数值正确性的同时,实现了比开启 CPU 卸载的 DeepSpeed ZeRO-3 高出 12.2 倍的训练吞吐量。跨平台和规模的测试表明,Horizon-LM 保持了高设备利用率和可预测的内存增长,证明了主机内存而非 GPU 内存才是定义节点级大模型训练真正可行边界的关键。
Horizon-LM:无需购买更多 GPU 即可训练千亿参数语言模型。
我们提出了一种以 RAM 为中心、CPU 为主的训练架构,将 GPU 视为瞬时计算引擎而非持久参数存储,从而在极少的 GPU 硬件上实现大规模训练。