⏶6

RainbowPlus：通过进化质量-多样性搜索增强对抗性提示生成

04月21日发表

04月22日由 Quy-Anh Dang 提交

作者: Quy-Anh Dang, Chris Ngo, Truong-Son Hy

摘要

大型语言模型（LLM）展现出卓越的能力，但也容易受到对抗性提示的影响，这些提示利用漏洞产生不安全或有偏见的输出。现有的红队测试方法通常面临可扩展性挑战、资源密集型要求或攻击策略的多样性有限等问题。我们提出了 RainbowPlus，这是一个基于进化计算的新型红队测试框架，通过自适应质量-多样性（QD）搜索来增强对抗性提示生成，该搜索扩展了经典的进化算法（如 MAP-Elites），并针对语言模型进行了创新。通过采用多元素档案来存储多样化的高质量提示，并采用综合适应度函数来同时评估多个提示，RainbowPlus 克服了先前 QD 方法（如 Rainbow Teaming）中单提示档案和成对比较的限制。在六个基准数据集和四个开源 LLM 上比较 RainbowPlus 与 QD 方法的实验表明，RainbowPlus 具有更高的攻击成功率（ASR）和多样性（多样性评分约为 0.84），生成的独特提示最多是原来的 100 倍（例如，Ministral-8B-Instruct-2410 为 10,418 个，而 QD 方法为 100 个）。在 HarmBench 数据集上，针对九种最先进的方法和十二个 LLM（十个开源，两个闭源）进行测试，RainbowPlus 的平均 ASR 达到 81.1%，比 AutoDAN-Turbo 高出 3.9%，速度快 9 倍（1.45 小时 vs. 13.50 小时）。我们的开源实现促进了 LLM 安全性的进一步发展，为漏洞评估提供了一个可扩展的工具。代码和资源在 https://github.com/knoveleng/rainbowplus 上公开提供，支持可重现性和未来在 LLM 红队测试方面的研究。

查看 arXiv 页面查看 PDF

Quy-Anh Dang

论文作者

论文提交者

非常高兴与社区分享我们的工作！

DANG VAN THUC

干得漂亮！

我观察到两种实验设置之间的突变数量有所不同。您能否解释一下如何确定最佳突变数量？

Quy-Anh Dang

论文作者

论文提交者

您好 @thucdangvan020999，

感谢您的提问！

增加突变数量可以提高攻击成功率。但是，为了确保与其他方法进行公平比较并控制成本，我们在实验 2 中将其限制为 10。对于实际应用，我们强烈建议增加突变数量以获得更好的结果。

此致敬礼

这个和之前的论文有什么不同？第一眼看上去，这个是 MIT 许可的，并且结构不同。（第一个实现者）

Quy-Anh Dang

论文作者

论文提交者

你好 @oceansweep，

谢谢你的评论！你对结构性差异和MIT许可证的看法是正确的。具体来说，RAINBOWPLUS使用多元素归档来存储各种提示词（prompts），这与之前工作（如 Rainbow）中每个单元格存储单个提示词的方法不同。此外，我们的概率适应度函数（probabilistic fitness function）可以同时评估多个提示词，克服了早期方法中使用的成对比较（pairwise comparisons）的局限性，那些方法每次迭代只能评估一对。这些创新有助于我们的框架实现出色的性能，运行速度比 AutoDAN-Turbo 快 9 倍。

至于实现方面，虽然受到了 Meta 的闭源 Rainbow 论文的启发，但我们从零开始开发了自己的算法和实现。我们已经开源了 RAINBOWPLUS，以鼓励进一步的研究和协作。

谢谢！这非常有帮助。那看来，我就会迁移到这个设计了。

Quy-Anh Dang

论文作者

论文提交者

代码: https://github.com/knoveleng/rainbowplus