⏶56
MCP-Bench:通过MCP服务器对使用工具的LLM Agent进行复杂现实世界任务的基准测试
发表
由
Zhenting Wang 提交
作者:
Zhenting Wang,
Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu,
Aolin Ding, Alireza Rezazadeh,
Ankit Shah, Yujia Bao,
Eugene Siow


摘要
我们介绍了 MCP-Bench,一个用于评估大型语言模型 (LLMs) 在现实、多步任务上的基准测试,这些任务需要工具使用、跨工具协调、精确参数控制以及用于解决任务的规划/推理。MCP-Bench 基于模型上下文协议 (MCP),将 LLMs 连接到 28 个代表性的实时 MCP 服务器,这些服务器跨越金融、旅行、科学计算和学术搜索等领域的 250 个工具。与以前的基于 API 的基准测试不同,每个 MCP 服务器都提供一组互补的工具,这些工具被设计成协同工作,从而能够构建真实、多步的任务,并具有丰富的输入-输出耦合。MCP-Bench 中的任务测试代理从模糊指令中检索相关工具的能力,而无需显式工具名称,为复杂目标规划多步执行轨迹,根据中间工具输出来 grounding 响应,以及编排跨领域工作流程——这些能力在现有的依赖于显式工具规范、浅层多步工作流程和孤立领域操作的基准测试中并未得到充分评估。我们提出一个多方面评估框架,涵盖工具级模式理解和使用、轨迹级规划以及任务完成。对 20 个先进 LLM 的实验揭示了 MCP-Bench 中存在的持续挑战。代码和数据:https://github.com/Accenture/mcp-bench。
我们引入了 MCP-Bench,这是一个用于评估大型语言模型 (LLM) 在现实的、多步骤任务上的基准。这些任务需要工具使用、跨工具协调、精确的参数控制以及用于解决任务的规划/推理。MCP-Bench 基于模型上下文协议 (MCP) 构建,将 LLM 连接到 28 个代表性的实时 MCP 服务器,这些服务器涵盖金融、旅行、科学计算和学术搜索等领域的 250 个工具。与之前的基于 API 的基准不同,每个 MCP 服务器都提供一套互补的工具,这些工具被设计成协同工作,从而能够构建具有丰富输入-输出耦合的真实、多步骤任务。此外,MCP-Bench 中的任务测试了代理从模糊指令中检索相关工具(无需显式工具名称)、为复杂目标规划多跳执行轨迹、将响应固定到中间工具输出来源以及编排跨域工作流的能力——这些能力无法通过依赖显式工具规范、浅层几步工作流和孤立领域操作的现有基准充分评估。我们提出了一个多方面评估框架,涵盖工具级模式理解和使用、轨迹级规划和任务完成。对 20 个先进 LLM 的实验揭示了 MCP-Bench 中持续存在的挑战。代码和数据:https://github.com/Accenture/mcp-bench。