⏶30

资源受限情况下大型语言模型的全参数微调

06月16日发表

04月12日由

AK 提交

作者:

Kai Lv, Yuqing Yang, Tengxiao Liu, Qinghui Gao,

Qipeng Guo,

Xipeng Qiu

摘要

大型语言模型 (LLM) 彻底改变了自然语言处理 (NLP)，但训练需要大量的 GPU 资源。降低 LLM 训练的门槛将鼓励更多研究人员参与，从而使学术界和社会受益。虽然现有的方法侧重于参数高效的微调（调整或添加少量参数），但很少有人解决在资源有限的情况下调整 LLM 全部参数的挑战。在这项工作中，我们提出了一种新的优化器，低内存优化 (LOMO)，它将梯度计算和参数更新融合在一个步骤中，以减少内存使用。通过将 LOMO 与现有的内存节省技术相结合，与标准方法（DeepSpeed 解决方案）相比，我们将内存使用量减少到 10.8%。因此，我们的方法能够在单台配备 8 个 RTX 3090（每个 24GB 内存）的机器上对 65B 模型进行全参数微调。

查看 arXiv 页面查看 PDF

Ariana Martino

非常令人兴奋！LOMO 是否有计划集成到 HF transformers Trainer 中，以便用户可以开始利用内存改进？

Kai

论文作者

感谢您的兴趣。当然！我已经提出了一个 issue，要求在此处进行集成 https://github.com/huggingface/transformers/issues/29649。

Derek Thomas

看起来真的很有趣。我很惊讶地看到它已经 9 个月了。我本希望它能更受欢迎一些。

Kai

论文作者

谢谢。我们正在努力使其更易于访问，以普及 LLM :)。

资源受限情况下大型语言模型的全参数微调

摘要

评论