⏶1

仆人、跟踪者、捕食者：诚实、乐于助人且无害（3H）的代理如何解锁对抗性技能

08月27日发表

08月27日由 David Noever 提交

作者: David Noever

摘要

本文识别并分析了基于模型上下文协议（MCP）的代理系统中一类新颖的漏洞。该攻击链描述并演示了良性的、单个授权的任务如何被编排以产生有害的涌现行为。通过使用 MITRE ATLAS 框架的系统性分析，我们展示了经过测试并可以访问多个服务的 95 个代理——包括浏览器自动化、财务分析、位置跟踪和代码部署——如何将合法的操作链接成复杂的攻击序列，这些序列超出了任何单个服务的安全边界。这些红队演习调查了当前的 MCP 架构是否缺乏检测或阻止一大类组合攻击所需的跨域安全措施。我们提供了具体的攻击链的实证证据，这些攻击链通过服务编排实现了有针对性的危害，包括数据泄露、金融操纵和基础设施的妥协。这些发现表明，当代理可以跨多个域协调行动时，服务隔离的基本安全假设就会失效，从而产生一个指数级的攻击面，这个攻击面随着每个附加功能而增长。本研究提供了一个基础的实验框架，该框架评估的不是代理是否能完成 MCP 基准任务，而是当它们过度完成任务并在多个服务之间进行优化，以违反人类期望和安全约束的方式进行时会发生什么。我们提出了使用现有的 MCP 基准套件进行的三种具体的实验方向。

查看 arXiv 页面查看 PDF

David Noever

论文作者

论文提交者

代理AI组合攻击表面

仆人、跟踪者、捕食者：诚实、乐于助人且无害（3H）的代理如何解锁对抗性技能

摘要

评论