⏶5

通用越狱后缀是强大的注意力劫持者

06月15日发表

06月18日由 Matan BT 提交

作者: Matan Ben-Tov, Mor Geva, Mahmood Sharif

摘要

我们研究基于后缀的越狱攻击——这是一种针对大型语言模型（LLM）的强大攻击家族，它们通过优化对抗性后缀来规避安全对齐。我们聚焦于广泛使用的基础性GCG攻击（Zou et al.，2023），发现后缀的效力各不相同：有些后缀明显更具普适性——能够泛化到许多未见过的有害指令——而另一些则不然。我们首先揭示，GCG的有效性是由一种浅层但关键的机制驱动的，该机制建立在对抗性后缀到生成前最终聊天模板令牌的信息流之上。通过量化这种机制在生成过程中的主导作用，我们发现GCG不规则且侵略性地劫持了上下文生成过程。至关重要的是，我们将劫持与普适性现象联系起来，更具普适性的后缀是更强的劫持者。随后，我们展示了这些见解的实际意义：GCG的普适性可以在不增加额外计算成本的情况下得到有效提升（在某些情况下高达5倍），并且可以被精确地缓解，至少能将攻击成功率降低一半，同时将效用损失降至最低。我们已在http://github.com/matanbt/interp-jailbreak发布了代码和数据。

查看 arXiv 页面查看 PDF

Matan BT

论文作者

论文提交者

分析基于后缀的LLM越狱的底层机制，我们发现它依赖于积极劫持模型上下文 🥷，后缀越通用，其劫持能力越强。利用这一点，我们展示了如何增强和缓解现有攻击。

通用越狱后缀是强大的注意力劫持者

摘要

评论