⏶36
GraLoRA:用于参数高效微调的细粒度低秩适应
发表
由
Hyungjun Kim 提交
作者:
Yeonjoon Jung,
Daehyun Ahn,
Hyungjun Kim,
Taesu Kim,
Eunhyeok Park

摘要
低秩自适应 (LoRA) 是一种流行的参数高效微调 (PEFT) 方法,因其简单性和有效性而备受推崇。尽管最近有所改进,但 LoRA 仍然存在一个根本局限性:当瓶颈加宽时会过拟合。它在秩为 32-64 时表现最佳,但在更高秩时准确性停滞或下降,仍未达到完全微调 (FFT) 的性能。我们确定根本原因是 LoRA 的结构性瓶颈,它会引入不相关输入通道的梯度纠缠,并扭曲梯度传播。为了解决这个问题,我们引入了一种新颖的结构,细粒度低秩自适应 (GraLoRA),它将权重矩阵分割成子块,每个子块都有自己的低秩适配器。GraLoRA 以可忽略的计算或存储成本克服了 LoRA 的局限性,有效增加了表示能力,并且更接近 FFT 的行为。在代码生成和常识推理基准上的实验表明,GraLoRA 始终优于 LoRA 和其他基线,在 HumanEval+ 上的 Pass@1 绝对增益高达 +8.5%。这些改进适用于各种模型尺寸和秩设置,使得 GraLoRA 成为一种可扩展且稳健的 PEFT 解决方案。代码、数据和脚本可在 https://github.com/SqueezeBits/GraLoRA.git 获取。
在这项工作中,我们引入了 GraLoRA,一种新颖的 PEFT 方法,通过细粒度的、块状的分解扩展了 LoRA。基于对 LoRA 梯度行为的严格分析,我们发现输入异常值会主导低秩更新,抑制其他输入通道的有意义贡献,并与在完全微调中观察到的局部梯度传播不一致。
代码: https://github.com/SqueezeBits/GraLoRA