颠覆基于推理的安全防护栏的技巧集

发表
Shuo ChenShuo Chen 提交
作者: Shuo Chen, Zhen Han, Haokun Chen, Bailan He, Shengyun Si, Jingpei Wu, Philip Torr, Volker Tresp, Jindong Gu

摘要

AI 生成总结
大型推理模型中的基于推理的安全护栏容易受到细微提示操纵的影响,导致在各种基准测试中攻击成功率很高。
最近针对大型推理模型(LRMs)的基于推理的安全防护机制,例如审慎对齐(deliberative alignment),已经对越狱攻击显示出强大的防御能力。通过利用LRMs的推理能力,这些防护机制有助于模型在生成最终响应之前评估用户输入的安全性。强大的推理能力可以分析查询的意图,一旦检测到越狱方法隐藏的有害意图,就会拒绝提供帮助。这些防护机制已经显示出防御能力的显著提升,例如在开源的gpt-oss系列上接近完美的拒绝率。不幸的是,我们发现这些强大的基于推理的防护机制可能极其容易受到输入提示的微妙操纵,一旦被劫持,可能会导致更严重的不良后果。具体来说,我们首先揭示了这些防护机制一个令人惊讶的脆弱方面:只需向输入提示添加几个模板标记,就可以成功绕过看似强大的防护机制,并导致明确的有害响应。为了进一步探索,我们提出了一系列越狱方法,这些方法可以颠覆基于推理的防护机制。我们的攻击涵盖白盒、灰盒和黑盒设置,从轻松的模板操纵到完全自动化的优化。除了可扩展实现的潜力外,这些方法还实现了惊人的高攻击成功率(例如,在本地主机模型和在线API服务的gpt-oss系列上的5个不同基准测试中成功率超过90%)。对各种领先的开源LRMs的评估证实,这些漏洞是系统性的,这突显了对开源LRMs进行更强对齐技术以防止恶意滥用的紧迫需求。代码已开源:https://chenxshuo.github.io/bag-of-tricks
查看 arXiv 页面查看 PDF

评论

Shuo ChenShuo Chen
论文提交者

最近用于大型推理模型(LRM)的基于推理的安全护栏,例如审慎对齐,已显示出对越狱攻击的强大防御能力。通过利用 LRM 的推理能力,这些护栏可以帮助模型在生成最终响应之前评估用户输入的安全性。强大的推理能力可以分析输入查询的意图,一旦检测到越狱方法隐藏的有害意图,就会拒绝协助。此类护栏已显示出显著的防御能力提升,例如在开源 gpt-oss 系列上几乎完美的拒绝率。不幸的是,我们发现这些强大的基于推理的护栏可能非常容易受到输入提示的微妙操纵,一旦被劫持,可能会导致更具危害性的结果。具体来说,我们首先发现这些护栏一个令人惊讶的脆弱方面:只需在输入提示中添加几个模板 token 即可成功绕过看似强大的护栏,并导致明确和有害的响应。为了进一步探索,我们引入了一系列越狱方法,这些方法可以颠覆基于推理的护栏。我们的攻击涵盖了白盒、灰盒和黑盒设置,范围从轻松的模板操纵到完全自动化的优化。除了可扩展实现的潜力外,这些方法还实现了惊人的高攻击成功率(例如,在本地主机模型和在线 API 服务上的 gpt-oss 系列的 5 个不同基准测试中超过 90%)。对各种领先的开源 LRM 的评估证实了这些漏洞的系统性,并强调了迫切需要为开源 LRM 提供更强大的对齐技术,以防止恶意滥用。