RainbowPlus:通过进化质量-多样性搜索增强对抗性提示生成

发表
Quy-Anh DangQuy-Anh Dang 提交
作者: Quy-Anh DangQuy-Anh Dang, Chris NgoChris Ngo, Truong-Son Hy

摘要

大型语言模型(LLM)展现出卓越的能力,但也容易受到对抗性提示的影响,这些提示利用漏洞产生不安全或有偏见的输出。现有的红队测试方法通常面临可扩展性挑战、资源密集型要求或攻击策略的多样性有限等问题。我们提出了 RainbowPlus,这是一个基于进化计算的新型红队测试框架,通过自适应质量-多样性(QD)搜索来增强对抗性提示生成,该搜索扩展了经典的进化算法(如 MAP-Elites),并针对语言模型进行了创新。通过采用多元素档案来存储多样化的高质量提示,并采用综合适应度函数来同时评估多个提示,RainbowPlus 克服了先前 QD 方法(如 Rainbow Teaming)中单提示档案和成对比较的限制。在六个基准数据集和四个开源 LLM 上比较 RainbowPlus 与 QD 方法的实验表明,RainbowPlus 具有更高的攻击成功率(ASR)和多样性(多样性评分约为 0.84),生成的独特提示最多是原来的 100 倍(例如,Ministral-8B-Instruct-2410 为 10,418 个,而 QD 方法为 100 个)。在 HarmBench 数据集上,针对九种最先进的方法和十二个 LLM(十个开源,两个闭源)进行测试,RainbowPlus 的平均 ASR 达到 81.1%,比 AutoDAN-Turbo 高出 3.9%,速度快 9 倍(1.45 小时 vs. 13.50 小时)。我们的开源实现促进了 LLM 安全性的进一步发展,为漏洞评估提供了一个可扩展的工具。代码和资源在 https://github.com/knoveleng/rainbowplus 上公开提供,支持可重现性和未来在 LLM 红队测试方面的研究。
查看 arXiv 页面查看 PDF
RainbowPlus:通过进化质量-多样性搜索增强对抗性提示生成
RainbowPlus:通过进化质量-多样性搜索增强对抗性提示生成

评论

Quy-Anh DangQuy-Anh Dang
论文作者
论文提交者

非常高兴与社区分享我们的工作!

DANG VAN THUCDANG VAN THUC

干得漂亮!

我观察到两种实验设置之间的突变数量有所不同。您能否解释一下如何确定最佳突变数量?

Quy-Anh DangQuy-Anh Dang
论文作者
论文提交者

您好 @thucdangvan020999,

感谢您的提问!

增加突变数量可以提高攻击成功率。但是,为了确保与其他方法进行公平比较并控制成本,我们在实验 2 中将其限制为 10。对于实际应用,我们强烈建议增加突变数量以获得更好的结果。

此致敬礼

rr

这个和之前的论文有什么不同?第一眼看上去,这个是 MIT 许可的,并且结构不同。(第一个实现者)

Quy-Anh DangQuy-Anh Dang
论文作者
论文提交者

你好 @oceansweep,

谢谢你的评论!你对结构性差异和MIT许可证的看法是正确的。具体来说,RAINBOWPLUS使用多元素归档来存储各种提示词(prompts),这与之前工作(如 Rainbow)中每个单元格存储单个提示词的方法不同。此外,我们的概率适应度函数(probabilistic fitness function)可以同时评估多个提示词,克服了早期方法中使用的成对比较(pairwise comparisons)的局限性,那些方法每次迭代只能评估一对。这些创新有助于我们的框架实现出色的性能,运行速度比 AutoDAN-Turbo 快 9 倍。

至于实现方面,虽然受到了 Meta 的闭源 Rainbow 论文的启发,但我们从零开始开发了自己的算法和实现。我们已经开源了 RAINBOWPLUS,以鼓励进一步的研究和协作。

rr

谢谢!这非常有帮助。那看来,我就会迁移到这个设计了。

Quy-Anh DangQuy-Anh Dang
论文作者
论文提交者

代码: https://github.com/knoveleng/rainbowplus