通用越狱后缀是强大的注意力劫持者

发表
Matan BTMatan BT 提交
作者: Matan BTMatan Ben-Tov, Mor GevaMor Geva, Mahmood Sharif

摘要

我们研究基于后缀的越狱攻击——这是一种针对大型语言模型(LLM)的强大攻击家族,它们通过优化对抗性后缀来规避安全对齐。我们聚焦于广泛使用的基础性GCG攻击(Zou et al.,2023),发现后缀的效力各不相同:有些后缀明显更具普适性——能够泛化到许多未见过的有害指令——而另一些则不然。我们首先揭示,GCG的有效性是由一种浅层但关键的机制驱动的,该机制建立在对抗性后缀到生成前最终聊天模板令牌的信息流之上。通过量化这种机制在生成过程中的主导作用,我们发现GCG不规则且侵略性地劫持了上下文生成过程。至关重要的是,我们将劫持与普适性现象联系起来,更具普适性的后缀是更强的劫持者。随后,我们展示了这些见解的实际意义:GCG的普适性可以在不增加额外计算成本的情况下得到有效提升(在某些情况下高达5倍),并且可以被精确地缓解,至少能将攻击成功率降低一半,同时将效用损失降至最低。我们已在http://github.com/matanbt/interp-jailbreak发布了代码和数据。
查看 arXiv 页面查看 PDF

评论

Matan BTMatan BT
论文作者
论文提交者

分析基于后缀的LLM越狱的底层机制,我们发现它依赖于积极劫持模型上下文 🥷,后缀越通用,其劫持能力越强。利用这一点,我们展示了如何增强和缓解现有攻击。