⏶31
X-Teaming:使用自适应多智能体的多轮越狱和防御
发表
由
Salman Rahman 提交
作者:
Salman Rahman,
Liwei Jiang,
James Shiffer,
Genglin Liu, Sheriff Issaka,
Md Rizwan Parvez,
Hamid Palangi,
Kai-Wei Chang,
Yejin Choi,
Saadia Gabriel


摘要
与语言模型(LM)的多轮交互带来了严重的安全风险,因为有害意图可以策略性地分散在多次对话中。然而,绝大多数先前的工作都集中在单轮安全性上,而适应性和多样性仍然是多轮红队测试的关键挑战之一。为了应对这些挑战,我们提出了 X-Teaming,这是一个可扩展的框架,系统地探索看似无害的交互如何升级为有害结果,并生成相应的攻击场景。X-Teaming 采用协作式代理进行规划、攻击优化和验证,在代表性的领先开源和闭源模型中,实现了高达 98.1% 的成功率,达到了最先进的多轮越狱有效性和多样性。特别是,X-Teaming 对最新的 Claude 3.7 Sonnet 模型实现了 96.2% 的攻击成功率,该模型曾被认为几乎对单轮攻击免疫。在 X-Teaming 的基础上,我们推出了 XGuard-Train,这是一个开源的多轮安全训练数据集,比以前最好的资源大 20 倍,包含 3 万个交互式越狱,旨在为 LM 实现强大的多轮安全对齐。我们的工作为缓解复杂的对话攻击提供了必要的工具和见解,从而提升了 LM 的多轮安全性。
🔗 项目: https://x-teaming.github.io
📄 论文: https://arxiv.org/abs/2504.13203
💾 数据集: https://huggingface.co/datasets/marslabucla/XGuard-Train
💻 代码: https://github.com/salman-lui/x-teaming