RiemannLoRA: 用于无歧义 LoRA 优化的统一黎曼框架

发表
Aibek AlanovAibek Alanov 提交
作者: Vladimir Bogachev, Vladimir Aletov, Alexander Molozhavenko, Denis Bobkov, Vera Soboleva, Aibek AlanovAibek Alanov, Maxim Rakhuba

摘要

低秩适应(LoRA)已成为大型语言模型(LLMs)参数高效微调的广泛采用标准,显著降低了内存和计算需求。然而,挑战依然存在,包括寻找最佳初始化策略或减轻低秩矩阵分解中的过度参数化问题。在这项工作中,我们提出了一种新颖的方法,它在一个统一的框架内同时解决了这两个挑战。我们的方法将一组固定秩的 LoRA 矩阵视为一个光滑流形。将适配器视为该流形上的元素可以消除过度参数化,而确定沿流形最快损失下降的方向则提供了初始化。我们特别注意采用数值线性代数和黎曼优化中的最佳实践,以实现我们方法的数值稳定和计算高效。在 LLM 和扩散模型架构上的实验结果表明,RiemannLoRA 相较于标准 LoRA 及其最先进的改进版本,在收敛速度和最终性能方面均有显著提升。
查看 arXiv 页面查看 PDF

评论

Aibek AlanovAibek Alanov
论文作者
论文提交者

我们提出了 RiemannLoRA,它通过将 LoRA 矩阵视为平滑流形,并利用黎曼优化解决过参数化和初始化挑战,从而改进了大型模型高效微调的低秩适应 (LoRA) 方法,带来了比标准 LoRA 方法更快的收敛速度和更好的性能。