SAEs 可以改进非学习:用于LLMs中的精确非学习的动态稀疏自编码器护栏

04月11日发表
04月14日由 Aashiq MuhamedAashiq Muhamed 提交
作者: Aashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith

摘要

机器遗忘是一种很有前景的方法,可以通过从模型中移除不需要的知识来提高 LLM 的安全性。然而,流行的基于梯度的遗忘方法存在计算成本高、超参数不稳定、顺序遗忘能力差、容易受到重新学习攻击、数据效率低以及缺乏可解释性等问题。虽然稀疏自编码器非常适合通过实现有针对性的基于激活的遗忘来改善这些方面,但先前的方法表现不如基于梯度的方法。这项工作表明,与这些早期发现相反,当动态使用 SAE 时,SAE 可以显着改善遗忘。我们引入了动态 DAE 护栏 (DSG),这是一种用于精确遗忘的新颖方法,它利用了有原则的特征选择和动态分类器。我们的实验表明,DSG 大大优于领先的遗忘方法,实现了卓越的遗忘-效用权衡。DSG 解决了基于梯度的遗忘方法的主要缺点——提供增强的计算效率和稳定性、在顺序遗忘中稳健的性能、更强的抵抗重新学习攻击能力、更好的数据效率(包括零样本设置)以及更可解释的遗忘。
查看 arXiv 页面查看 PDF

评论

Aashiq MuhamedAashiq Muhamed
论文提交者

代码将在 https://github.com/aashiqmuhamed/DynamicSAEGuardrails 发布