MCP-宇宙:使用真实世界模型上下文协议服务器对大型语言模型进行基准测试

发表
Ziyang LuoZiyang Luo 提交
作者: Ziyang LuoZiyang Luo, Zhiqi Shen, Wenzhuo Yang, Zirui Zhao, Prathyusha Jwalapuram, Amrita Saha, Doyen Sahoo, Silvio Savarese, Caiming Xiong, Junnan Li

摘要

模型上下文协议 (MCP) 已成为连接大型语言模型与外部数据源和工具的变革性标准,并迅速被主流人工智能提供商和开发平台采纳。然而,现有的基准测试过于简单,未能捕捉到真实应用中的挑战,例如长时域推理和大型、不熟悉的工具空间。为了解决这一关键差距,我们提出了 MCP-Universe,这是第一个专门通过与真实 MCP 服务器交互来评估大型语言模型在现实和困难任务中的能力的综合性基准测试。我们的基准测试涵盖了 6 个核心领域,横跨 11 个不同的 MCP 服务器:位置导航、存储库管理、财务分析、3D 设计、浏览器自动化和网络搜索。为了确保严格的评估,我们实施了基于执行的评估器,包括用于智能体格式合规性的格式评估器、用于时间不变内容匹配的静态评估器,以及自动检索时间敏感任务实时真实情况的动态评估器。通过对领先的大型语言模型的广泛评估,我们发现即使是 GPT-5 (43.72%)、Grok-4 (33.33%) 和 Claude-4.0-Sonnet (29.44%) 等最先进的模型也表现出显著的性能限制。此外,我们的基准测试对大型语言模型智能体提出了严峻的长上下文挑战,因为随着交互步骤的增加,输入令牌的数量会迅速增加。此外,它还引入了未知工具的挑战,因为大型语言模型智能体通常不熟悉 MCP 服务器的确切用法。值得注意的是,像 Cursor 这样的企业级智能体无法取得比标准 ReAct 框架更好的性能。除了评估,我们还开源了支持 UI 的可扩展评估框架,使研究人员和从业人员能够无缝集成新的智能体和 MCP 服务器,同时促进快速发展的 MCP 生态系统的创新。
查看 arXiv 页面查看 PDF

评论

Ziyang LuoZiyang Luo
论文作者
论文提交者

🚀 MCP-Universe:真实世界 AI 代理评估框架

👋 激动地与大家分享我们在评估真实世界场景中 AI 代理的最新工作:

📄 论文https://arxiv.org/abs/2508.14704

🔗 GitHubhttps://github.com/SalesforceAIResearch/MCP-Universe

🌐 网站https://mcp-universe.github.io/

💬 Discordhttps://discord.gg/t9tU77GF

这有什么特别之处?

✅ 无合成基准测试,实际 MCP 服务器交互

✅ 多领域覆盖,3D 设计(Blender)、浏览器自动化、金融分析、位置导航、存储库管理、网络搜索

✅ 需要规划和执行操作的复杂多步任务

✅ 动态真实情况,非静态数据集

📊 结果

即使是最好的模型在真实世界任务中也举步维艰:

  • GPT-5:成功率 43.72%

  • Grok-4:成功率 33.33%

  • Claude-4.0-Sonnet:成功率 29.44%

这表明当前能力与真实世界代理性能之间仍然存在巨大的差距!

🔧 面向研究人员和开发者

该框架提供:

  • 自定义基准创建工具

  • 代理编排系统

  • 详细的评估报告

  • 多服务器集成支持

非常适合任何从事工具使用代理、多步推理或真实世界 AI 应用的人。期待听到您的想法,并看到社区如何使用它!🤖✨