⏶162

MCPMark：一个用于压力测试现实和全面MCP使用的基准

09月28日发表

10月01日由 Zijian Wu 提交

作者: Zijian Wu, Xiangyan Liu, Xinyuan Zhang, chen Lingjun Chen, Fanqing Meng, Lingxiao Du, Yiran Zhao, Fanshi Zhang, Yaoqi Ye, Jiawei Wang, Zirui Wang, Jinjie Ni, Yufan Yang, Arvin Xu, Michael Qizhe Shieh

摘要

AI 生成总结

MCPMark 是一个用于评估 MCP 在真实工作流程中使用的全面基准，包含需要更丰富环境交互的各种任务，并揭示了当前 LLMs 在这些任务上的表现不佳。

MCP 标准化了 LLM 与外部系统的交互方式，为通用代理奠定了基础。然而，现有的 MCP 基准范围仍然狭窄：它们侧重于大量读取的任务或交互深度有限的任务，未能捕捉到真实世界工作流程的复杂性和现实性。为了弥合这一差距，我们提出了 MCPMark，一个旨在以更现实和全面的方式评估 MCP 使用的基准。它包含由领域专家和 AI 代理协作创建的 127 个高质量任务。每个任务都从一个精选的初始状态开始，并包含一个用于自动验证的程序化脚本。这些任务需要与环境进行更丰富、更多样化的交互，涉及广泛的创建、读取、更新和删除（CRUD）操作。我们使用在工具调用循环中运行的最小代理框架，对尖端 LLM 进行了全面评估。经验结果表明，表现最佳的模型 gpt-5-medium，pass@1 仅达到 52.56%，pass^4 达到 33.86%，而其他广泛认可的强大模型，包括 claude-sonnet-4 和 o3，pass@1 低于 30%，pass^4 低于 15%。平均而言，LLM 每个任务需要 16.2 个执行回合和 17.4 次工具调用，明显超过了 prior MCP 基准中的数量，凸显了 MCPMark 的压力测试性质。

查看 arXiv 页面查看 PDF

Zijian Wu

论文作者

论文提交者

代理可以调用工具——但它们真的能交付吗？
MCPMark 通过 5 个 MCP 服务器上的 127 个 CRUD 繁重任务对 30 多个模型进行了压力测试，并使用一个最小但通用的 MCPMark-Agent 以确保公平比较。
结果：即使是最好的模型，pass@1 也仅能达到 52.56% / pass^4 达到 33.86%，而其他强大的系统如 claude-sonnet-4 和 o3 的 pass@1 保持在 30% 以下。
我们分析了原因——从隐式错误和上下文漂移到成本-性能权衡。

👉 论文：https://arxiv.org/pdf/2509.24002
👉 网站：https://mcpmark.ai/
👉 代码：https://github.com/eval-sys/mcpmark

user two

测试

user one 111

此评论已隐藏。

Zijian Wu

论文作者

论文提交者

在 X 上与我们讨论！https://x.com/michaelqshieh/status/1973374660919324795

Jonathan Bejarano

我想知道新发布的 Claude 4.5 Sonnet 在此测试中的表现如何。模型更新迭代很快，感谢你们出色的工作！

Zijian Wu

论文作者

论文提交者

您好，感谢您的关注！您可以在这里找到 claude-sonnet-4.5 的结果。如需更多讨论，您可以参考我们的X。