⏶9
大型语言模型的低精度训练:方法、挑战与机遇
发表
由
Zhiwei Hao 提交
作者:
Zhiwei Hao,
Jianyuan Guo, Li Shen,
Yong Luo, Han Hu,
Guoxia Wang, Dianhai Yu, Yonggang Wen, Dacheng Tao
摘要
大型语言模型 (LLMs) 在各个领域都取得了令人瞩目的性能。然而,其训练所需的大量硬件资源构成了效率和可伸缩性的重大障碍。为了缓解这一挑战,低精度训练技术被广泛采用,带来了训练效率的显著进步。尽管取得了这些进展,低精度训练涉及多个组件——例如权重、激活值和梯度——每个组件可以用不同的数值格式表示。由此产生的多样性在低精度训练研究领域形成了一个碎片化的格局,使得研究人员难以获得该领域的统一概览。本综述对现有低精度训练方法进行了全面回顾。为了系统地组织这些方法,我们根据其底层数值格式将其分为三个主要类别,这是影响硬件兼容性、计算效率和读者查阅方便性的关键因素。这三个类别是:(1) 定点和整数方法,(2) 浮点方法,以及 (3) 定制格式方法。此外,我们还讨论了量化感知训练方法,这些方法在前向传播过程中与低精度训练具有关键的相似性。最后,我们重点介绍了几个有前景的研究方向,以推动该领域的发展。本综述讨论的论文集可在 https://github.com/Hao840/Awesome-Low-Precision-Training 中找到。
本文对LLMs的低精度训练进行了全面的综述。 摘要:大型语言模型(LLMs)在各种领域取得了令人印象深刻的性能。然而,训练它们所需的大量硬件资源对效率和可扩展性构成了重大障碍。为了缓解这一挑战,低精度训练技术已被广泛采用,显著提高了训练效率。尽管取得了这些进展,低精度训练涉及多个组成部分——例如权重、激活和梯度——每个都可以用不同的数值格式表示。由此产生的多样性在低精度训练研究领域造成了碎片化,使得研究人员难以获得该领域的统一概览。本综述对现有的低精度训练方法进行了全面的回顾。为了系统地组织这些方法,我们根据其底层数值格式将其分为三个主要类别,这是影响硬件兼容性、计算效率和读者参考便捷性的关键因素。这些类别是:(1)定点和整数方法,(2)浮点方法,以及(3)自定义格式方法。此外,我们还讨论了量化感知训练方法,它们在正向传播期间与低精度训练具有关键相似性。最后,我们强调了几个有前景的研究方向来推进该领域。本综述讨论的论文集可在此链接获取。