LiveMCP-101:对 MCP 代理进行压力测试和诊断,以应对挑战性查询

发表
Ming YinMing Yin 提交
作者: Ming YinMing Yin, Dinghan ShenDinghan Shen, Silei XuSilei Xu, Jianbing HanJianbing Han, Sixun DongSixun Dong, Mian Zhang, Yebowen HuYebowen Hu, shujian liuShujian Liu, Simin MaSimin Ma, SongWSong Wang, Sathish Reddy IndurthiSathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang SongKaiqiang Song

摘要

工具调用已成为 AI 代理与现实世界交互和解决复杂任务的关键能力。虽然模型上下文协议 (MCP) 为工具集成提供了一个强大的标准化框架,但在基准测试 AI 代理在现实、动态场景中如何有效地使用各种 MCP 工具解决多步骤任务方面,存在着显著的不足。在本工作中,我们提出了 LiveMCP-101,这是一个包含 101 个精心策划的现实世界查询的基准测试。这些查询通过迭代的 LLM 重写和人工审查进行优化,需要协调使用多个 MCP 工具,包括网络搜索、文件操作、数学推理和数据分析。此外,我们引入了一种新颖的评估方法,该方法利用地面真实执行计划而非原始 API 输出,更能反映现实世界环境不断变化 的性质。实验表明,即使是最先进的 LLM,成功率也低于 60%,这突显了工具编排方面的重大挑战。详细的消融研究和错误分析进一步揭示了不同的失败模式和代币使用效率低下,为推进当前模型指明了具体方向。LiveMCP-101 为评估现实世界代理能力设定了严格的标准,朝着能够通过工具使用可靠地执行复杂任务的自主 AI 系统迈进。
查看 arXiv 页面查看 PDF
LiveMCP-101:对 MCP 代理进行压力测试和诊断,以应对挑战性查询
LiveMCP-101:对 MCP 代理进行压力测试和诊断,以应对挑战性查询

评论

Ming YinMing Yin
论文作者
论文提交者

本文介绍了 LiveMCP-101,这是一个真实世界的多步 MCP 工具基准,包含 101 个精选查询和一个基于执行计划而非原始输出的新颖评估——突出了前沿 LLM 的成功率低于 60%。我们还提供了详细的失败归因和代币效率分析。

Prabhjot SinghPrabhjot Singh

你好,我们如何在这个基准上评估我们自定义的智能代理系统?找不到仓库……另外,在哪里可以找到所使用的 101 个查询?

yyyyyyyyyy
此评论已隐藏。
Mian ZhangMian Zhang

很棒的论文!