⏶31

X-Teaming：使用自适应多智能体的多轮越狱和防御

04月15日发表

04月22日由 Salman Rahman 提交

作者: Salman Rahman, Liwei Jiang, scoliono James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel

摘要

与语言模型（LM）的多轮交互带来了严重的安全风险，因为有害意图可以策略性地分散在多次对话中。然而，绝大多数先前的工作都集中在单轮安全性上，而适应性和多样性仍然是多轮红队测试的关键挑战之一。为了应对这些挑战，我们提出了 X-Teaming，这是一个可扩展的框架，系统地探索看似无害的交互如何升级为有害结果，并生成相应的攻击场景。X-Teaming 采用协作式代理进行规划、攻击优化和验证，在代表性的领先开源和闭源模型中，实现了高达 98.1% 的成功率，达到了最先进的多轮越狱有效性和多样性。特别是，X-Teaming 对最新的 Claude 3.7 Sonnet 模型实现了 96.2% 的攻击成功率，该模型曾被认为几乎对单轮攻击免疫。在 X-Teaming 的基础上，我们推出了 XGuard-Train，这是一个开源的多轮安全训练数据集，比以前最好的资源大 20 倍，包含 3 万个交互式越狱，旨在为 LM 实现强大的多轮安全对齐。我们的工作为缓解复杂的对话攻击提供了必要的工具和见解，从而提升了 LM 的多轮安全性。

查看 arXiv 页面查看 PDF

Salman Rahman

论文作者

论文提交者

🔗 项目: https://x-teaming.github.io

📄 论文: https://arxiv.org/abs/2504.13203

💾 数据集: https://huggingface.co/datasets/marslabucla/XGuard-Train

💻 代码: https://github.com/salman-lui/x-teaming

X-Teaming：使用自适应多智能体的多轮越狱和防御

摘要

评论