⏶95
SingLoRA:使用单个矩阵的低秩适应
发表
由
noam rotstein 提交
作者: David Bensaïd,
Noam Rotstein,
Roy Velich, Daniel Bensaïd, Ron Kimmel
摘要
低秩适应(LoRA)极大地推动了大型预训练模型的参数高效微调。LoRA通过添加两个较小矩阵的乘积来增强模型的预训练权重,这两个矩阵共同形成一个低秩矩阵更新。近期研究表明,这两个矩阵之间的尺度差异常导致训练动态不稳定,从而性能不佳。在本文中,我们提出了SingLoRA,它通过将权重更新学习为单个低秩矩阵与其转置的乘积的分解,从而重新定义了低秩适应。这种简洁的设计本质上消除了矩阵间的尺度冲突,确保了稳定的优化,并大约将参数数量减半。我们在无限宽神经网络框架内分析了SingLoRA,表明它通过构造确保了稳定的特征学习。多任务上的大量实验验证了这些优势。在常识推理方面,使用SingLoRA在MNLI上微调LLama 7B达到了91.3%的准确率——超越了LoRA(89.1%)和LoRA+(90.2%)——同时仅使用了它们60%的参数预算。在图像生成方面,使用SingLoRA微调Stable Diffusion显著提高了DreamBooth上的图像保真度,DINO相似度分数达到0.151,而DoRA和LoRA的分数分别为0.148和0.143。
评论
arXiv Explained 详细解读了这篇论文 👉 https://arxivexplained.com/papers/singlora-low-rank-adaptation-using-a-single-matrix
SingLoRA 通过使用单个矩阵而非两个矩阵来简化低秩适应,从而避免了尺度不匹配并减少了参数数量。这种简单的解决方案实现了更稳定的训练,并且在语言和图像任务中均超越了 LoRA 及其变体的性能。