⏶28
基于树的对话强化策略优化用于红队攻击
发表
由
Ruohao Guo 提交

作者:
Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth

摘要
AI 生成总结
DialTree-RPO,一个带有树搜索的在线强化学习框架,自主发现针对大型语言模型的多种多轮攻击策略,实现了更高的攻击成功率并揭示了新的攻击轨迹。尽管人工智能安全方面取得了近期快速进展,但当前的大型语言模型
在多轮交互环境中仍然容易受到对抗性攻击,
攻击者会在对话轮次中策略性地调整其提示,构成更严峻但更现实的挑战。
现有的发现安全漏洞的方法要么依赖于人工红队专家,要么
采用基于预定义模板和人工策划攻击数据的方法,其中大多数
侧重于单轮攻击。然而,这些方法并未探索
可能的多轮攻击的广阔空间,未能考虑由复杂对话动态和
策略性对话规划产生的新的攻击轨迹。考虑到最近发现 LLM
比单轮攻击更容易受到多轮攻击,这种差距尤其关键。
我们提出了 DialTree-RPO,一个集成了树搜索的在线强化学习框架,
该框架通过将对话视为一个顺序决策问题,自主发现多样的多轮攻击策略,
从而在没有人为策划数据的情况下实现系统性探索。通过广泛的实验,
我们的方法不仅比先前最先进的方法在 10 个目标模型上实现了高出 25.9% 的 ASR,
而且通过学习能够最大化多轮攻击成功的最佳对话策略,有效地揭示了新的攻击策略。
基于树的对话强化策略优化用于红队攻击