⏶30
资源受限情况下大型语言模型的全参数微调
06月16日发表
04月12日由
AK 提交

作者:
Kai Lv, Yuqing Yang, Tengxiao Liu, Qinghui Gao,
Qipeng Guo,
Xipeng Qiu

摘要
大型语言模型 (LLM) 彻底改变了自然语言处理 (NLP),但训练需要大量的 GPU 资源。降低 LLM 训练的门槛将鼓励更多研究人员参与,从而使学术界和社会受益。虽然现有的方法侧重于参数高效的微调(调整或添加少量参数),但很少有人解决在资源有限的情况下调整 LLM 全部参数的挑战。在这项工作中,我们提出了一种新的优化器,低内存优化 (LOMO),它将梯度计算和参数更新融合在一个步骤中,以减少内存使用。通过将 LOMO 与现有的内存节省技术相结合,与标准方法(DeepSpeed 解决方案)相比,我们将内存使用量减少到 10.8%。因此,我们的方法能够在单台配备 8 个 RTX 3090(每个 24GB 内存)的机器上对 65B 模型进行全参数微调。
评论
论文作者
感谢您的兴趣。当然!我已经提出了一个 issue,要求在此处进行集成 https://github.com/huggingface/transformers/issues/29649。
非常令人兴奋!LOMO 是否有计划集成到 HF transformers Trainer 中,以便用户可以开始利用内存改进?