资源受限情况下大型语言模型的全参数微调

06月16日发表
04月12日由 AKAK 提交
作者: KaiKai Lv, Yuqing Yang, Tengxiao Liu, Qinghui Gao, Qipeng GuoQipeng Guo, Xipeng QiuXipeng Qiu

摘要

大型语言模型 (LLM) 彻底改变了自然语言处理 (NLP),但训练需要大量的 GPU 资源。降低 LLM 训练的门槛将鼓励更多研究人员参与,从而使学术界和社会受益。虽然现有的方法侧重于参数高效的微调(调整或添加少量参数),但很少有人解决在资源有限的情况下调整 LLM 全部参数的挑战。在这项工作中,我们提出了一种新的优化器,低内存优化 (LOMO),它将梯度计算和参数更新融合在一个步骤中,以减少内存使用。通过将 LOMO 与现有的内存节省技术相结合,与标准方法(DeepSpeed 解决方案)相比,我们将内存使用量减少到 10.8%。因此,我们的方法能够在单台配备 8 个 RTX 3090(每个 24GB 内存)的机器上对 65B 模型进行全参数微调。

评论

Ariana MartinoAriana Martino

非常令人兴奋!LOMO 是否有计划集成到 HF transformers Trainer 中,以便用户可以开始利用内存改进?

KaiKai
论文作者

感谢您的兴趣。当然!我已经提出了一个 issue,要求在此处进行集成 https://github.com/huggingface/transformers/issues/29649。

Derek ThomasDerek Thomas

看起来真的很有趣。我很惊讶地看到它已经 9 个月了。我本希望它能更受欢迎一些。

KaiKai
论文作者

谢谢。我们正在努力使其更易于访问,以普及 LLM :)。