仆人、跟踪者、捕食者:诚实、乐于助人且无害(3H)的代理如何解锁对抗性技能

发表
David NoeverDavid Noever 提交
作者: David NoeverDavid Noever

摘要

本文识别并分析了基于模型上下文协议(MCP)的代理系统中一类新颖的漏洞。该攻击链描述并演示了良性的、单个授权的任务如何被编排以产生有害的涌现行为。通过使用 MITRE ATLAS 框架的系统性分析,我们展示了经过测试并可以访问多个服务的 95 个代理——包括浏览器自动化、财务分析、位置跟踪和代码部署——如何将合法的操作链接成复杂的攻击序列,这些序列超出了任何单个服务的安全边界。这些红队演习调查了当前的 MCP 架构是否缺乏检测或阻止一大类组合攻击所需的跨域安全措施。我们提供了具体的攻击链的实证证据,这些攻击链通过服务编排实现了有针对性的危害,包括数据泄露、金融操纵和基础设施的妥协。这些发现表明,当代理可以跨多个域协调行动时,服务隔离的基本安全假设就会失效,从而产生一个指数级的攻击面,这个攻击面随着每个附加功能而增长。本研究提供了一个基础的实验框架,该框架评估的不是代理是否能完成 MCP 基准任务,而是当它们过度完成任务并在多个服务之间进行优化,以违反人类期望和安全约束的方式进行时会发生什么。我们提出了使用现有的 MCP 基准套件进行的三种具体的实验方向。
查看 arXiv 页面查看 PDF
仆人、跟踪者、捕食者:诚实、乐于助人且无害(3H)的代理如何解锁对抗性技能

评论

David NoeverDavid Noever
论文作者
论文提交者

代理AI组合攻击表面