一种抵御大型语言模型擦除攻击的简单防御

发表
Hasan Abed Al Kader HammoudHasan Abed Al Kader Hammoud 提交
作者: Harethah Abu ShairahHarethah Abu Shairah, Hasan Abed Al Kader HammoudHasan Abed Al Kader Hammoud, Bernard GhanemBernard Ghanem, George Turkiyyah

摘要

大型语言模型(LLMs)通常通过拒绝有害指令来对齐以遵守安全指南。最近的一种攻击,称为“清除攻击”(abliteration),会隔离并抑制对拒绝行为最负责的单个潜在方向,从而使模型能够生成不道德内容。我们提出了一种防御方法,该方法修改了模型生成拒绝的方式。我们构建了一个扩展拒绝数据集,其中包含有害提示以及解释拒绝原因的完整响应。然后,我们在此扩展拒绝数据集上微调了 Llama-2-7B-Chat 和 Qwen2.5-Instruct(1.5B 和 3B 参数),并在一组有害提示上评估了由此产生的系统。在我们的实验中,扩展拒绝模型保持了较高的拒绝率,最多下降 10%,而基线模型的拒绝率在清除攻击后下降了 70-80%。对安全性和实用性的广泛评估表明,扩展拒绝微调可以抵消清除攻击,同时保持整体性能。
查看 arXiv 页面查看 PDF

评论

Hasan Abed Al Kader HammoudHasan Abed Al Kader Hammoud
论文作者
论文提交者

大型语言模型 (LLMs) 通常通过拒绝有害指令来遵守安全准则。最近一项名为“抹杀”(abliteration) 的攻击,隔离并压制了最主要负责拒绝行为的单一潜在方向,使模型能够生成不道德的内容。我们提出一种防御方法,它修改了模型生成拒绝回应的方式。我们构建了一个扩展拒绝数据集,其中包含有害提示以及解释拒绝原因的完整回应。然后,我们在扩展拒绝数据集上对 Llama-2-7B-Chat 和 Qwen2.5-Instruct(1.5B 和 3B 参数)进行微调,并在一组有害提示上评估生成的系统。在我们的实验中,经过扩展拒绝训练的模型保持了较高的拒绝率,下降最多不超过 10%,而基线模型在“抹杀”攻击后拒绝率下降了 70-80%。对安全性和实用性进行的广泛评估表明,扩展拒绝微调中和了“抹杀”攻击,同时保持了整体性能。