⏶73

Quartet: 对于大型语言模型，原生的 FP4 训练可以是最佳的

05月20日发表

05月26日由 Andrei Panferov 提交

作者: Roberto L. Castro, Andrei Panferov, Soroush Tabesh, Oliver Sieberling, Jiale Chen, Mahdi Nikdan, Saleh Ashkboos, Dan Alistarh

摘要

大型语言模型 (LLMs) 的飞速发展伴随着前所未有的计算需求增长，最先进模型的训练成本每隔几个月就翻一番。直接使用低精度算术训练模型提供了一种解决方案，可以提高计算吞吐量和能源效率。特别是，NVIDIA 最近的 Blackwell 架构支持极低精度操作，特别是 FP4 变体，有望带来显著的效率提升。然而，目前用于 FP4 精度训练 LLM 的算法面临着显著的精度下降，并且通常依赖于混合精度回退。在本文中，我们系统地研究了硬件支持的 FP4 训练，并介绍了一种名为 Quartet 的新方法，该方法可以实现精确的端到端 FP4 训练，其中所有主要计算（例如在线性层中）都在低精度下执行。通过对 Llama 类型模型进行广泛评估，我们揭示了一种新的低精度缩放定律，该定律量化了不同位宽下的性能权衡，并使我们能够识别出一种在精度与计算效率方面“接近最优”的低精度训练技术，即 Quartet。我们使用针对 NVIDIA Blackwell GPU 优化的 CUDA 内核实现了 Quartet，并表明它可以在 FP4 精度下达到最先进的精度，成功训练了十亿参数规模的模型。我们的方法表明，完全基于 FP4 的训练是标准精度和 FP8 训练的具有竞争力的替代方案。我们的代码可在 https://github.com/IST-DASLab/Quartet 获取。

查看 arXiv 页面查看 PDF

Andrei Panferov

论文作者

论文提交者

RTX5090 内核将于下周发布。

B200 内核仍处于早期开发阶段。

请参考仓库获取更新。

Quartet: 对于大型语言模型，原生的 FP4 训练可以是最佳的

摘要

评论