扭转咒语:通过秩一安全注入实现轻量级对齐放大

发表
Hasan Abed Al Kader HammoudHasan Abed Al Kader Hammoud 提交
作者: Harethah Abu ShairahHarethah Abu Shairah, Hasan Abed Al Kader Hammoud, George Turkiyyah, Bernard Ghanem

摘要

大型语言模型(LLMs)的安全对齐通常涉及调解内部表征以拒绝有害请求。 近期研究表明,通过烧蚀或移除模型中特定的表征方向可以绕过这些安全机制。 在本论文中,我们提出了相反的方法:秩一安全注入(ROSI)。 ROSI 是一种白盒方法,通过永久性地将模型的激活值引导至拒绝调解子空间来增强模型的安全对齐。 ROSI 是一种简单的、无需微调的秩一权重修改,应用于所有残差流写入矩阵。 所需的安全方向可以从一小组有害和无害的指令对中计算得出。 我们表明,ROSI 在保持模型在 MMLU、HellaSwag 和 Arc 等标准基准上的效用的同时, 一致地提高了安全拒绝率(由 Llama Guard 3 评估)。 此外,我们还表明,ROSI 还可以通过增强其自身的潜在安全方向来重新对齐“未经审查”的模型, 证明了其作为一种有效的“最后一英里”安全程序的效用。 我们的结果表明,有针对性的、可解释的权重引导是一种廉价而有效的改进 LLM 安全的机制, 可以补充更耗费资源的微调范式。
查看 arXiv 页面查看 PDF
扭转咒语:通过秩一安全注入实现轻量级对齐放大

评论

Hasan Abed Al Kader HammoudHasan Abed Al Kader Hammoud
论文提交者

大型语言模型(LLM)的安全对齐通常涉及中介内部表征以拒绝有害请求。最近的研究表明,通过消融或移除模型内的特定表征方向可以绕过这些安全机制。在本文中,我们提出了相反的方法:秩一安全注入(ROSI),一种白盒方法,通过永久地将模型的激活导向拒绝中介子空间来增强模型的安全对齐。ROSI 作为一种简单、无需微调的秩一权重修改,应用于所有残差流写入矩阵。所需的安全性方向可以从一小部分有害和无害指令对中计算得出。我们表明,ROSI 能够持续提高安全性拒绝率(通过 Llama Guard 3 评估),同时在 MMLU、HellaSwag 和 Arc 等标准基准测试中保持模型的效用。此外,我们还表明 ROSI 可以通过放大其自身的潜在安全性方向来重新对齐“未经审查”的模型,证明其作为一种有效的“最后一英里”安全程序的实用性。我们的结果表明,有针对性的、可解释的权重引导是一种廉价而有效的增强 LLM 安全性的机制,是对资源密集型微调范式的补充。