LiveMCPBench:代理能驾驭MCP工具的海洋吗?

发表
Jiawei ChenJiawei Chen 提交
作者: mo guozhaoGuozhao Mo, Wenliang Zhong, Jiawei ChenJiawei Chen, Xuanang Chen, Yaojie LuYaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun

摘要

随着模型上下文协议(Model Context Protocol, MCP)的快速发展,MCP 服务器的数量已超过 10,000 个。然而,现有的 MCP 基准测试仅限于只有少数工具的单服务器设置,这阻碍了在真实大规模场景中对智能体能力的有效评估。为解决这一局限,我们推出了 LiveMCPBench,这是首个包含 95 个基于 MCP 生态系统的真实世界任务的综合基准测试,旨在跨多个不同服务器对大语言模型智能体进行大规模评估。为了支持在大型 MCP 环境中实现可扩展且可复现的评估流程,我们整理了 LiveMCPTool,这是一个多样化且易于部署的集合,包含 70 个 MCP 服务器和 527 个工具。此外,我们引入了 LiveMCPEval,这是一个“LLM 即评判者”的框架,能够在动态、时变的任务环境中进行自动化和自适应评估,与人类评审员的一致性达到 81%。最后,我们提出了 MCP Copilot Agent,这是一个多步智能体,它能为动态规划路由工具,并在整个 LiveMCPTool 套件中执行工具以进行 API 交互。我们的评估覆盖了 10 个领先模型,其中表现最佳的模型(Claude-Sonnet-4)达到了 78.95% 的成功率。然而,我们观察到各模型之间存在巨大的性能差异,并且一些广泛使用的模型在 LiveMCPBench 的复杂、工具丰富的环境中表现不佳。总体而言,LiveMCPBench 为在真实、工具丰富且动态的 MCP 环境中对 LLM 智能体进行基准测试提供了首个统一框架,为智能体能力的可扩展和可复现研究奠定了坚实的基础。我们的代码和数据将在 https://icip-cas.github.io/LiveMCPBench 公开发布。
查看 arXiv 页面查看 PDF

评论

Jiawei ChenJiawei Chen
论文作者
论文提交者

LiveMCPBench 是第一个旨在大规模评估 LLM 代理在各种模型上下文协议 (MCP) 服务器上的综合基准。它包含 95 个基于 MCP 生态系统的真实任务,挑战代理在复杂、工具丰富和动态的环境中有效地使用日常场景中的各种工具。为了支持可扩展和可重现的评估,LiveMCPBench 辅以 LiveMCPTool(包含 70 个 MCP 服务器和 527 个工具的多样化集合)和 LiveMCPEval(用于自动化和自适应评估的 LLM-as-a-Judge 框架)。该基准提供了一个统一的框架,用于在现实、工具丰富和动态的 MCP 环境中对 LLM 代理进行基准测试,为代理能力的可扩展和可重现研究奠定了坚实的基础。