基于树的对话强化策略优化用于红队攻击

发表
Ruohao GuoRuohao Guo 提交
作者: Ruohao GuoRuohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth

摘要

AI 生成总结
DialTree-RPO,一个带有树搜索的在线强化学习框架,自主发现针对大型语言模型的多种多轮攻击策略,实现了更高的攻击成功率并揭示了新的攻击轨迹。
尽管人工智能安全方面取得了近期快速进展,但当前的大型语言模型 在多轮交互环境中仍然容易受到对抗性攻击, 攻击者会在对话轮次中策略性地调整其提示,构成更严峻但更现实的挑战。 现有的发现安全漏洞的方法要么依赖于人工红队专家,要么 采用基于预定义模板和人工策划攻击数据的方法,其中大多数 侧重于单轮攻击。然而,这些方法并未探索 可能的​​多轮攻击的广阔空间,未能考虑由复杂对话动态和 策略性对话规划产生的新的攻击轨迹。考虑到最近发现 LLM 比单轮攻击更容易受到多轮攻击,这种差距尤其关键。 我们提出了 DialTree-RPO,一个集成了树搜索的在线强化学习框架, 该框架通过将对话视为一个顺序决策问题,自主发现多样的多轮攻击策略, 从而在没有人为策划数据的情况下实现系统性探索。通过广泛的实验, 我们的方法不仅比先前最先进的方法在 10 个目标模型上实现了高出 25.9% 的 ASR, 而且通过学习能够最大化多轮攻击成功的最佳对话策略,有效地揭示了新的攻击策略。
查看 arXiv 页面查看 PDF

评论

Ruohao GuoRuohao Guo
论文作者
论文提交者

基于树的对话强化策略优化用于红队攻击

phil d.phil d.

非常有趣。我想知道这里观察到的模式如何应用于 LLM 的危害较小的应用,以及是否跨多个术语的重复肯定也会导致整体质量下降。