⏶11
使用 NVFP4 预训练大型语言模型
发表
由
taesiri 提交
作者: NVIDIA, Felix Abecassis, Anjulie Agrusa, Dong Ahn, Jonah Alben, Stefania Alborghetti, Michael Andersch, Sivakumar Arayandi, Alexis Bjorlin, Aaron Blakeman, Evan Briones, Ian Buck, Bryan Catanzaro, Jinhang Choi, Mike Chrzanowski, Eric Chung, Victor Cui, Steve Dai, Bita Darvish Rouhani, Carlo del Mundo, Deena Donia, Burc Eryilmaz, Henry Estela, Abhinav Goel, Oleg Goncharov, Yugi Guvvala, Robert Hesse, Russell Hewett, Herbert Hum, Ujval Kapasi, Brucek Khailany, Mikail Khona, Nick Knight, Alex Kondratenko, Ronny Krashinsky, Ben Lanir, Simon Layton, Michael Lightstone, Daniel Lo, Paulius Micikevicius, Asit Mishra, Tim Moon, Deepak Narayanan, Chao Ni, Abhijit Paithankar, Satish Pasumarthi, Ankit Patel, Mostofa Patwary, Ashwin Poojary, Gargi Prasad, Sweta Priyadarshi, Yigong Qin, Xiaowei Ren, Oleg Rybakov, Charbel Sakr, Sanjeev Satheesh, Stas Sergienko, Pasha Shamis,
Kirthi Shankar, Nishant Sharma, Mohammad Shoeybi, Michael Siu, Misha Smelyanskiy, Darko Stosic, Dusan Stosic, Bor-Yiing Su, Frank Sun, Nima Tajbakhsh, Shelby Thomas, Przemek Tredak, Evgeny Tsykunov, Gandhi Vaithilingam, Aditya Vavre, Rangharajan Venkatesan, Roger Waleffe, Qiyu Wan, Hexin Wang, Mengdi Wang, Lizzie Wei, Hao Wu, Evan Wu, Keith Wyss, Ning Xu, Jinze Xue, Charlene Yang, Yujia Zhai, Ruoxi Zhang, Jingyang Zhu, Zhongbo Zhu
摘要
AI 生成总结
一种新颖的训练方法,使用 NVFP4 格式结合随机 Hadamard 变换、二维量化、随机舍入和选择性高精度层,实现了 4 位精度下大语言模型的稳定和精确训练。如今,大型语言模型(LLM)是许多领域的强大问题解决者,并且随着模型规模、训练集大小和训练集质量的提高,它们的能力也在不断增强,这已由业界广泛的研究和实验证明。训练一个前沿模型如今需要占用约几十到几百个 Yottaflops 的计算量,这是一笔巨大的时间、计算和能源投资。因此,提高预训练效率对于实现下一代更强大的 LLM 至关重要。虽然 8 位浮点(FP8)训练现在已被广泛采用,但转向更窄的精度,例如 4 位浮点(FP4),可以进一步提高计算速度和资源利用率。然而,如此低级别的量化会对训练稳定性、收敛性和实现带来挑战,尤其是在长 token 周期上训练的大规模模型方面。
在本研究中,我们引入了一种使用 NVFP4 格式稳定准确地训练大型语言模型(LLM)的新颖方法。我们的方法集成了随机 Hadamard 变换(RHT)来约束块级异常值,采用二维量化方案来跨前向和后向传播保持一致的表示,利用随机舍入进行无偏差梯度估计,并结合选择性的高精度层。我们通过在 10 万亿 token 上训练一个 120 亿参数的模型来验证我们的方法——这是迄今为止 4 位精度下公开记录的最长训练运行。我们的结果表明,使用我们基于 NVFP4 的预训练技术训练的模型,在训练损失和下游任务准确率方面与 FP8 基线相当。这些发现表明,NVFP4 与我们的训练方法相结合,代表了窄精度 LLM 训练算法的一个重大进步。
如今,大型语言模型(LLM)在许多领域都是强大的问题解决者,并且随着模型规模、训练集规模和训练集质量的提升,它们的能力也在不断增强,正如行业内广泛的研究和实验所示。训练一个前沿模型目前需要花费数十到数百耀拉浮点(yottaflops)的时间,这是一项巨大的时间、计算和能源投资。因此,提高预训练效率对于实现下一代更强大的 LLM 至关重要。虽然 8 位浮点(FP8)训练现已得到广泛采用,但转向更窄的精度,如 4 位浮点(FP4),可以进一步提高计算速度和资源利用率。然而,如此低精度的量化在训练稳定性、收敛性和实现方面带来了挑战,尤其是在处理长 token 范围的大规模模型训练时。
在本研究中,我们提出了一种使用 NVFP4 格式稳定且准确地训练大型语言模型(LLM)的新颖方法。我们的方法集成了随机哈达玛变换(RHT)来限制块级异常值,采用二维量化方案来在正向和反向传播过程中实现一致的表示,利用随机舍入进行无偏梯度估计,并纳入选择性高精度层。我们通过在 10 万亿 token 上训练一个 120 亿参数的模型来验证我们的方法——这是迄今为止公开报道的最长的 4 位精度训练运行。我们的结果表明,使用我们基于 NVFP4 的预训练技术训练的模型在训练损失和下游任务准确性方面与 FP8 基线相当。这些发现表明,NVFP4 与我们的训练方法相结合,代表了窄精度 LLM 训练算法的一大进步。