⏶2
揭开真相的面纱:降秩后涌现主权重,用于推理导向的监督微调
发表
由
Liu 提交

作者: Zihang Liu, Tianyu Pang, Oleg Balabanov, Chaoqun Yang, Tianjin Huang, Lu Yin, Yaoqing Yang, Shiwei Liu
摘要
最近的研究表明,在少量高质量数据集上对LLM进行监督微调可以获得强大的推理能力。然而,完全微调(Full FT)虽然功能强大,但计算成本高昂,并且容易出现过拟合和灾难性遗忘,尤其是在数据有限的情况下。稀疏微调此前通过仅更新模型参数的一小部分取得了显著成功,在效率和有效性之间提供了有希望的平衡。然而,在LLM时代,由于难以识别对推理真正关键的参数,稀疏微调一直落后。在这项工作中,我们指出,低秩近似后具有最大幅度的权重是微调的关键权重,我们称之为“主权重”(Principal Weights)。令人惊讶的是,虽然基于幅度的稀疏微调在LLM微调中作为基线表现不佳,但在秩减少后却变得非常有效。这些见解促使我们提出了我们的方法:低秩信息稀疏微调(LIFT)。LIFT在整个训练过程中仅更新前5%的主权重,并在推理任务上始终比完全微调取得更好的性能,同时保持与流行的参数高效微调方法相当的内存效率。除了在算术推理等目标领域表现出色外,与完全微调和LoRA相比,LIFT还保留了多达20%的源领域知识。我们的代码可在以下网址获取:https://github.com/zihanghliu/LIFT。
最近的研究表明,对少量高质量数据集进行 LLM 监督微调可以产生强大的推理能力。然而,完全微调(Full FT)虽然功能强大,但在计算上成本高昂,并且容易出现过拟合和灾难性遗忘,尤其是在数据有限的情况下。稀疏微调以前通过仅更新模型参数的一小部分取得了显著成功,在效率和有效性之间提供了有希望的权衡。然而,在 LLM 时代,由于难以识别对推理真正关键的参数,它一直滞后。在这项工作中,我们指出,在低秩近似后具有最大幅度的权重是微调的关键权重,我们称之为主导权重(Principal Weights)。令人惊讶的是,虽然基于幅度的稀疏微调在 LLM 微调中作为基线表现不佳,但在秩降低后它变得非常有效。这些见解激发了我们的方法:低秩信息稀疏微调(LIFT)。LIFT 在整个训练过程中仅更新前 5% 的主导权重,并且在推理任务上始终比 Full FT 取得更好的性能,同时保持与流行的参数高效微调方法相当的内存效率。除了在算术推理等目标领域表现出色外,与 Full FT 和 LoRA 相比,LIFT 还保留了高达 20% 的源领域知识。