⏶1
AdvEvo-MARL:通过多智能体强化学习中的对抗性协同进化塑造内在安全
发表
由
Zhenyu Pan 提交
作者: Zhenyu Pan, Yiting Zhang, Zhuo Liu, Yolo Yunlong Tang, Zeliang Zhang, Haozheng Luo, Yuwei Han, Jianshu Zhang, Dennis Wu, Hong-Yu Chen, Haoran Lu, Haoyang Fang, Manling Li, Chenliang Xu, Philip S. Yu, Han Liu
摘要
AI 生成总结
AdvEvo-MARL,一个共演化多代理强化学习框架,通过在不增加额外开销的情况下,在内部优化任务代理以应对不断演变的攻击,从而提高了 LLM 多代理系统的安全性和效用。基于 LLM 的多代理系统在规划、工具使用和角色协调方面表现出色,但其开放性和交互复杂性也使其容易受到越狱、提示注入和对抗性协作的攻击。现有的防御措施分为两条路线:(i)自我验证,即要求每个代理在执行前预先过滤不安全指令;(ii)外部守护模块,负责监督行为。前者通常表现不佳,因为独立代理缺乏检测跨代理不安全链和委托引起的风险的足够能力;后者增加了系统开销并造成单点故障——一旦被攻破,系统范围内的安全就会崩溃,并且添加更多守护模块会加剧成本和复杂性。为了解决这些挑战,我们提出了 AdvEvo-MARL,这是一个将安全性内化到任务代理中的协同进化多代理强化学习框架。AdvEvo-MARL 不依赖外部守护程序,而是在对抗性学习环境中共同优化攻击者(合成不断变化的越狱提示)和防御者(训练有素、既能完成任务又能抵御攻击的任务代理)。为了稳定学习和促进合作,我们引入了一个用于优势估计的公共基线:同一功能组内的代理共享一个组级平均回报基线,从而实现更低方差的更新和更强的组内协调。在代表性的攻击场景中,AdvEvo-MARL 的攻击成功率(ASR)一直保持在 20% 以下,而基线则高达 38.33%,同时保持(有时甚至改善)任务准确性(在推理任务上高达 +3.67%)。这些结果表明,安全性和效用可以在不依赖额外守护代理或增加系统开销的情况下共同提高。
基于 LLM 的多代理系统功能强大,但容易受到越狱和提示注入的攻击。我们提出了 AdvEvo-MARL,它通过在对抗性设置中与任务代理(防御者)共同训练不断演变的攻击者来内化安全性,再加上一个公共基线以减少方差并改进协调。在各种攻击场景中,AdvEvo-MARL 将 ASR 保持在 20% 以下(基线高达 38.33%),同时保持或略微提高任务准确性(+3.67%),在没有额外的安全代理或增加系统开销的情况下实现了安全-效用收益。