⏶3
LLM 遗忘应与形式无关
发表
由
Xiaotian Ye 提交
作者:
Xiaotian Ye, Mengqi Zhang, Shu Wu
摘要
大型语言模型 (LLM) 遗忘旨在消除或抑制模型中不需要的知识,为控制有害或私人信息以防止滥用提供了前景。然而,最近的研究强调了其在实际场景中有限的效力,阻碍了实际应用。在这项研究中,我们发现了一个普遍存在的问题,它是许多下游任务失败的根本原因:现有遗忘方法的有效性严重依赖于训练样本的形式,并且常常无法泛化到相同知识的不同表达方式。我们将此问题正式描述为“形式依赖性偏差”(Form-Dependent Bias),并系统地研究了其在各种下游任务中的具体表现模式。为了量化其普遍性并支持未来的研究,我们引入了 ORT,这是一个新颖的基准,旨在评估遗忘方法对知识表达变化的鲁棒性。结果表明,“形式依赖性偏差”在当前技术中普遍且严重。我们认为 LLM 遗忘应该是形式无关的,以应对现实世界中安全关键场景中遇到的无限形式的下游任务。为此,我们引入了“秩一概念重定向”(Rank-one Concept Redirection, ROCR),这是一种新颖的免训练方法,作为一条有前途的解决方案路径。ROCR 通过针对下游任务中的不变量,特别是激活的危险概念来执行遗忘。它能够在几秒钟内修改模型参数,将模型对特定遗忘目标概念的感知重定向到另一个无害概念。大量实验表明,与传统方法相比,ROCR 显著提高了遗忘的有效性,同时生成了高度自然的输出。
简而言之:我们发现形式依赖偏差是LLM遗忘中的一个关键限制,即现有方法在处理不同知识表达时会失效。我们的研究引入了ORT基准和ROCR,这是一种新颖的免训练方法,通过针对下游任务中的不变量(被激活的危险概念)实现了鲁棒且有效的遗忘,从而产生自然的输出。