CRISP:通过稀疏自动编码器实现持久的概念遗忘

发表
Tomer AshuachTomer Ashuach 提交
作者: Tomer AshuachTomer Ashuach, Dana Arad, Aaron Mueller, Martin Tutek, Yonatan Belinkov

摘要

随着大型语言模型 (LLM) 在现实世界应用中的部署日益广泛,选择性地移除不需要的知识同时保留模型效用的需求变得至关重要。近期研究探索了稀疏自编码器 (SAE) 以实现对单义特征的精确干预。然而,大多数基于 SAE 的方法在推理时操作,这并不会在模型参数中创建持久的更改。此类干预可能会被拥有参数访问权限的恶意行为者绕过或撤销。我们引入了 CRISP,一种使用 SAE 实现持久概念反学习的参数高效方法。CRISP 会自动识别跨多个层的突出 SAE 特征并抑制其激活。我们对两个 LLM 进行了实验,结果表明,在 WMDP 基准的安全性关键反学习任务上,我们的方法优于先前的方法,成功移除了有害知识,同时保留了通用和领域内能力。特征级分析表明,CRISP 在目标概念和良性概念之间实现了语义连贯的分离,从而能够精确抑制目标特征。
查看 arXiv 页面查看 PDF
CRISP:通过稀疏自动编码器实现持久的概念遗忘
CRISP:通过稀疏自动编码器实现持久的概念遗忘
CRISP:通过稀疏自动编码器实现持久的概念遗忘
CRISP:通过稀疏自动编码器实现持久的概念遗忘
CRISP:通过稀疏自动编码器实现持久的概念遗忘

评论

Tomer AshuachTomer Ashuach
论文作者
论文提交者
CRISP:通过稀疏自编码器实现持久概念遗忘

Tomer Ashuach (以色列理工学院),Dana Arad (以色列理工学院),Aaron Mueller (波士顿大学),Martin Tutek (萨格勒布大学),Yonatan Belinkov (以色列理工学院)

📄 摘要

随着大型语言模型(LLMs)越来越多地应用于实际应用,在保留模型效用的同时移除不良或有害知识的能力变得至关重要。现有的遗忘方法通常在推理时操作或进行广泛的参数编辑,这些方法要么无法持久,要么会损害良性能力。

我们提出了 CRISP(Concept Removal via Interpretable Sparse Projections,通过可解释稀疏投影移除概念),这是一种使用稀疏自编码器(SAEs)进行持久概念遗忘的参数高效方法。CRISP 自动识别与有害概念相关的稀疏 SAE 特征,并对模型进行微调以抑制这些特征,同时保留相关的良性特征并保持流畅的生成。

在两个开源模型(Llama-3.1-8B,Gemma-2-2B)和来自 WMDP 基准的安全关键领域(生物安全、网络安全)上,CRISP 的表现优于先前的方法,在整体得分上取得了高达 34 个点的提升,同时保留了良性知识和流畅性。特征级分析表明,CRISP 发现了语义连贯的特征,能够实现精确且可解释的知识移除。

🚀 亮点
  • ✅ 持久遗忘(不只是推理时引导)

  • ✅ 通过对比激活分析自动选择 SAE 特征

  • ✅ 使用遗忘、保留和连贯性损失进行参数高效微调

  • ✅ 在 WMDP 生物与网络安全基准上优于最先进的基线(RMU 和 ELM)

  • ✅ 在抑制有害知识的同时,生成流畅、连贯的内容

  • arXiv 论文

#遗忘 #可解释性 #稀疏自编码器 #AI安全 #知识编辑 #LLMs