X-Teaming:使用自适应多智能体的多轮越狱和防御

发表
Salman RahmanSalman Rahman 提交
作者: Salman RahmanSalman Rahman, Liwei JiangLiwei Jiang, scolionoJames Shiffer, Genglin LiuGenglin Liu, Sheriff Issaka, Md Rizwan ParvezMd Rizwan Parvez, Hamid PalangiHamid Palangi, Kai-Wei ChangKai-Wei Chang, Yejin ChoiYejin Choi, Saadia GabrielSaadia Gabriel

摘要

与语言模型(LM)的多轮交互带来了严重的安全风险,因为有害意图可以策略性地分散在多次对话中。然而,绝大多数先前的工作都集中在单轮安全性上,而适应性和多样性仍然是多轮红队测试的关键挑战之一。为了应对这些挑战,我们提出了 X-Teaming,这是一个可扩展的框架,系统地探索看似无害的交互如何升级为有害结果,并生成相应的攻击场景。X-Teaming 采用协作式代理进行规划、攻击优化和验证,在代表性的领先开源和闭源模型中,实现了高达 98.1% 的成功率,达到了最先进的多轮越狱有效性和多样性。特别是,X-Teaming 对最新的 Claude 3.7 Sonnet 模型实现了 96.2% 的攻击成功率,该模型曾被认为几乎对单轮攻击免疫。在 X-Teaming 的基础上,我们推出了 XGuard-Train,这是一个开源的多轮安全训练数据集,比以前最好的资源大 20 倍,包含 3 万个交互式越狱,旨在为 LM 实现强大的多轮安全对齐。我们的工作为缓解复杂的对话攻击提供了必要的工具和见解,从而提升了 LM 的多轮安全性。
查看 arXiv 页面查看 PDF

评论