⏶2
AlignGuard-LoRA:通过Fisher引导分解和黎曼测地线碰撞正则化实现对齐保持的微调
发表
由
Aman Chadha 提交

作者: Amitava Das,
Abhilekh Borah, Vinija Jain,
Aman Chadha

摘要
低秩适应(LoRA)已成为高效微调大语言模型(LLM)的标准工具。然而,即使是微小的 LoRA 更新也可能引发对齐漂移,通过错综复杂的参数变化削弱模型的安全性及行为约束。为解决此问题,我们提出了 AlignGuard-LoRA (AGL),一个在微调过程中保持对齐的原则性框架。AGL 引入了几个关键组成部分:用于监督的主要任务损失函数、基于费雪信息矩阵的正则化以限制在对齐敏感子空间中的更新,以及用于稳定新知识整合的特定任务正则化。我们进一步引入了碰撞感知正则化,它融合了黎曼重叠(惩罚坐标级干扰)和测地线分离(鼓励不相交的更新几何)。我们构建了 DriftCaps,这是一个专门针对安全和不安全提示的诊断性基准测试,旨在量化对齐漂移和安全性退化。实验评估表明,AGL 在不降低下游任务性能的情况下,将安全关键基准测试中的对齐漂移减少了高达 50%。全面的消融实验证实,每个组件都对保持潜在的安全行为做出了独特的贡献。最后,我们推导并验证了灾难性遗忘的缩放定律,揭示了 AGL 在保持适应动态的同时,能够平缓微调后的损失上升。AGL 是对 LoRA 的一种结构化改进,能在最小化权衡的情况下确保对齐的保持。为鼓励进一步探索和开发,我们开源了我们的实现。
🧠 漂移检查与遗忘缩放定律:
定义了一个新的基准 DRIFTCHECK,用于评估对齐漂移,并验证了一个修改后的缩放定律,该定律描述并减少了对齐敏感子空间中的灾难性遗忘,显示在不降低任务性能的情况下,对齐保留提高了 50%。