BitNet v2:原生4比特激活与哈达玛变换,用于1比特大型语言模型

发表
Hongyu WangHongyu Wang 提交
作者: Hongyu WangHongyu Wang, Shuming MaShuming Ma, Furu WeiFuru Wei

摘要

1 比特大型语言模型(LLMs)的高效部署受到激活异常值的阻碍,这使得量化到低比特宽度变得复杂。我们介绍了 BitNet v2,这是一个新颖的框架,能够实现用于 1 比特 LLMs 的原生 4 比特激活量化。为了解决注意力和前馈网络激活中的异常值问题,我们提出了 H-BitLinear,这是一个在激活量化之前应用在线哈达玛变换的模块。这种变换将尖锐的激活分布平滑为更像高斯分布的形式,适合低比特表示。实验表明,使用 8 比特激活从头开始训练的 BitNet v2 与 BitNet b1.58 的性能匹配。关键的是,BitNet v2 在使用原生 4 比特激活进行训练时实现了最小的性能下降,显著降低了批处理推理的内存占用和计算成本。
查看 arXiv 页面查看 PDF

评论

Hongyu WangHongyu Wang
论文作者
论文提交者

1比特大语言模型 (LLMs) 的高效部署受到激活异常值的阻碍,这使得量化到低位宽变得复杂。我们引入了 BitNet v2,这是一个使1比特LLMs能够进行原生4比特激活量化的新颖框架。为了解决注意力机制和前馈网络激活中的异常值,我们提出了 H-BitLinear,这是一个在激活量化之前应用在线哈达玛变换的模块。这种变换可以平滑尖锐的激活分布,使其更接近高斯分布的形式,从而适用于低位宽表示。实验表明,使用8比特激活从头开始训练的 BitNet v2 的性能与 BitNet b1.58 相当。至关重要的是,当使用原生4比特激活进行训练时,BitNet v2 实现了最小的性能下降,显著减少了批处理推理的内存占用和计算成本。