⏶162
MCPMark:一个用于压力测试现实和全面MCP使用的基准
发表
由
Zijian Wu 提交
作者:
Zijian Wu, Xiangyan Liu, Xinyuan Zhang,
Lingjun Chen, Fanqing Meng,
Lingxiao Du,
Yiran Zhao, Fanshi Zhang, Yaoqi Ye,
Jiawei Wang, Zirui Wang, Jinjie Ni, Yufan Yang,
Arvin Xu, Michael Qizhe Shieh

摘要
AI 生成总结
MCPMark 是一个用于评估 MCP 在真实工作流程中使用的全面基准,包含需要更丰富环境交互的各种任务,并揭示了当前 LLMs 在这些任务上的表现不佳。MCP 标准化了 LLM 与外部系统的交互方式,为通用代理奠定了基础。然而,现有的 MCP 基准范围仍然狭窄:它们侧重于大量读取的任务或交互深度有限的任务,未能捕捉到真实世界工作流程的复杂性和现实性。为了弥合这一差距,我们提出了 MCPMark,一个旨在以更现实和全面的方式评估 MCP 使用的基准。它包含由领域专家和 AI 代理协作创建的 127 个高质量任务。每个任务都从一个精选的初始状态开始,并包含一个用于自动验证的程序化脚本。这些任务需要与环境进行更丰富、更多样化的交互,涉及广泛的创建、读取、更新和删除(CRUD)操作。我们使用在工具调用循环中运行的最小代理框架,对尖端 LLM 进行了全面评估。经验结果表明,表现最佳的模型 gpt-5-medium,pass@1 仅达到 52.56%,pass^4 达到 33.86%,而其他广泛认可的强大模型,包括 claude-sonnet-4 和 o3,pass@1 低于 30%,pass^4 低于 15%。平均而言,LLM 每个任务需要 16.2 个执行回合和 17.4 次工具调用,明显超过了 prior MCP 基准中的数量,凸显了 MCPMark 的压力测试性质。
代理可以调用工具——但它们真的能交付吗?
MCPMark 通过 5 个 MCP 服务器上的 127 个 CRUD 繁重任务对 30 多个模型进行了压力测试,并使用一个最小但通用的 MCPMark-Agent 以确保公平比较。
结果:即使是最好的模型,pass@1 也仅能达到 52.56% / pass^4 达到 33.86%,而其他强大的系统如 claude-sonnet-4 和 o3 的 pass@1 保持在 30% 以下。
我们分析了原因——从隐式错误和上下文漂移到成本-性能权衡。
👉 论文:https://arxiv.org/pdf/2509.24002
👉 网站:https://mcpmark.ai/
👉 代码:https://github.com/eval-sys/mcpmark