⏶73
Quartet: 对于大型语言模型,原生的 FP4 训练可以是最佳的
发表
由
Andrei Panferov 提交

作者: Roberto L. Castro,
Andrei Panferov,
Soroush Tabesh,
Oliver Sieberling, Jiale Chen,
Mahdi Nikdan, Saleh Ashkboos,
Dan Alistarh


摘要
大型语言模型 (LLMs) 的飞速发展伴随着前所未有的计算需求增长,最先进模型的训练成本每隔几个月就翻一番。直接使用低精度算术训练模型提供了一种解决方案,可以提高计算吞吐量和能源效率。特别是,NVIDIA 最近的 Blackwell 架构支持极低精度操作,特别是 FP4 变体,有望带来显著的效率提升。然而,目前用于 FP4 精度训练 LLM 的算法面临着显著的精度下降,并且通常依赖于混合精度回退。在本文中,我们系统地研究了硬件支持的 FP4 训练,并介绍了一种名为 Quartet 的新方法,该方法可以实现精确的端到端 FP4 训练,其中所有主要计算(例如在线性层中)都在低精度下执行。通过对 Llama 类型模型进行广泛评估,我们揭示了一种新的低精度缩放定律,该定律量化了不同位宽下的性能权衡,并使我们能够识别出一种在精度与计算效率方面“接近最优”的低精度训练技术,即 Quartet。我们使用针对 NVIDIA Blackwell GPU 优化的 CUDA 内核实现了 Quartet,并表明它可以在 FP4 精度下达到最先进的精度,成功训练了十亿参数规模的模型。我们的方法表明,完全基于 FP4 的训练是标准精度和 FP8 训练的具有竞争力的替代方案。我们的代码可在 https://github.com/IST-DASLab/Quartet 获取。

RTX5090 内核将于下周发布。
B200 内核仍处于早期开发阶段。
请参考仓库获取更新。