⏶56

MCP-Bench：通过MCP服务器对使用工具的LLM Agent进行复杂现实世界任务的基准测试

08月28日发表

08月29日由 Zhenting Wang 提交

作者: Zhenting Wang, Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu, Aolin Ding, Alireza Rezazadeh, Ankit Shah, Yujia Bao, Eugene Siow

摘要

我们介绍了 MCP-Bench，一个用于评估大型语言模型 (LLMs) 在现实、多步任务上的基准测试，这些任务需要工具使用、跨工具协调、精确参数控制以及用于解决任务的规划/推理。MCP-Bench 基于模型上下文协议 (MCP)，将 LLMs 连接到 28 个代表性的实时 MCP 服务器，这些服务器跨越金融、旅行、科学计算和学术搜索等领域的 250 个工具。与以前的基于 API 的基准测试不同，每个 MCP 服务器都提供一组互补的工具，这些工具被设计成协同工作，从而能够构建真实、多步的任务，并具有丰富的输入-输出耦合。MCP-Bench 中的任务测试代理从模糊指令中检索相关工具的能力，而无需显式工具名称，为复杂目标规划多步执行轨迹，根据中间工具输出来 grounding 响应，以及编排跨领域工作流程——这些能力在现有的依赖于显式工具规范、浅层多步工作流程和孤立领域操作的基准测试中并未得到充分评估。我们提出一个多方面评估框架，涵盖工具级模式理解和使用、轨迹级规划以及任务完成。对 20 个先进 LLM 的实验揭示了 MCP-Bench 中存在的持续挑战。代码和数据：https://github.com/Accenture/mcp-bench。

查看 arXiv 页面查看 PDF

Zhenting Wang

论文作者

论文提交者

我们引入了 MCP-Bench，这是一个用于评估大型语言模型 (LLM) 在现实的、多步骤任务上的基准。这些任务需要工具使用、跨工具协调、精确的参数控制以及用于解决任务的规划/推理。MCP-Bench 基于模型上下文协议 (MCP) 构建，将 LLM 连接到 28 个代表性的实时 MCP 服务器，这些服务器涵盖金融、旅行、科学计算和学术搜索等领域的 250 个工具。与之前的基于 API 的基准不同，每个 MCP 服务器都提供一套互补的工具，这些工具被设计成协同工作，从而能够构建具有丰富输入-输出耦合的真实、多步骤任务。此外，MCP-Bench 中的任务测试了代理从模糊指令中检索相关工具（无需显式工具名称）、为复杂目标规划多跳执行轨迹、将响应固定到中间工具输出来源以及编排跨域工作流的能力——这些能力无法通过依赖显式工具规范、浅层几步工作流和孤立领域操作的现有基准充分评估。我们提出了一个多方面评估框架，涵盖工具级模式理解和使用、轨迹级规划和任务完成。对 20 个先进 LLM 的实验揭示了 MCP-Bench 中持续存在的挑战。代码和数据：https://github.com/Accenture/mcp-bench。

isaac weber

有排行榜吗？

Zhenting Wang

论文作者

论文提交者

您好，非常感谢您的关注！我们正在开发排行榜网站，并将很快发布。

MCP-Bench：通过MCP服务器对使用工具的LLM Agent进行复杂现实世界任务的基准测试

摘要

评论