⏶1
大型语言模型中的精确参数内概念擦除
发表
由
Yoav Gur Arieh 提交
作者: Yoav Gur-Arieh, Clara Suslik, Yihuai Hong, Fazl Barez, Mor Geva
摘要
大型语言模型(LLMs)在预训练期间通常会获取在下游部署中不需要的知识,例如敏感信息或受版权保护的内容。现有的移除此类知识的方法依赖于微调、训练低秩适配器或事实级编辑,但这些方法要么过于粗糙,要么过于浅显,要么效果不佳。在这项工作中,我们提出了 PISCES(Precise In-parameter Suppression for Concept EraSure),这是一个用于精确擦除模型参数中整个概念的新颖框架,其方法是直接编辑在参数空间中编码这些概念的方向。PISCES 使用一个解纠缠模型将 MLP 向量分解为可解释的特征,然后使用自动化可解释性技术识别与目标概念相关的特征,并从模型参数中移除它们。在 Gemma 2 和 Llama 3.1 上针对各种概念进行的实验表明,PISCES 在效果上比主流擦除方法取得了适度的提升,将目标概念的准确率降低至低至 7.7%,同时显著提高了擦除特异性(高达 31%)和鲁棒性(高达 38%)。总的来说,这些结果表明,基于特征的参数内编辑为移除语言模型中的概念知识提供了一种更精确可靠的方法。
代码 - https://github.com/yoavgur/PISCES/