⏶5
TheMCPCompany:使用任务专用工具创建通用代理
发表
由
Reza Esfandiarpoor 提交
作者: Reza Esfandiarpoor, Vishwas Suryanarayanan, Stephen H. Bach, Vishal Chowdhary, Anthony Aue
摘要
AI 生成总结
TheMCPCompany 使用 REST API 评估调用真实世界服务的工具调用代理,结果显示高级模型在更简单的环境中表现良好,但在复杂的企业环境中表现不佳。自模型上下文协议(MCP)引入以来,大型语言模型(LLM)可用工具的数量显著增加。
这些特定于任务的工具集提供了替代通用工具(如网页浏览器)的选择,
同时比图形用户界面(GUI)更容易开发和维护。
然而,当前的通用代理主要依赖网页浏览器与环境交互。
在此,我们引入 TheMCPCompany,一个用于评估工具调用代理在涉及与各种真实世界服务交互的任务上的基准。
我们使用这些服务的 REST API 创建 MCP 服务器,其中包括超过 18,000 个工具。
我们还为每个任务提供了手动标注的真实工具。
在我们的实验中,我们使用真实工具来展示工具调用代理在假设完美工具检索的情况下
提高性能和降低成本的潜力。接下来,我们探索使用工具检索的代理性能,以研究基于工具的代理的实际应用性。
尽管所有具有工具检索功能的模型表现与基于浏览器的代理相似或更好,
但较小的模型无法通过检索充分利用可用工具。
另一方面,GPT-5 在工具检索方面的性能与其在真实工具方面的性能非常接近。
总的来说,我们的工作表明,最先进的推理模型能够有效地在更简单的环境中发现工具,
但在复杂的企业环境中导航时会遇到严重困难。
TheMCPCompany 揭示,在数万个工具中进行导航并以非平凡的方式组合它们以解决复杂问题,
对于当前模型来说仍然是一个具有挑战性的任务,需要更好的推理和更好的检索模型。
自模型上下文协议(MCP)引入以来,大型语言模型(LLM)可用的工具数量显著增加。这些特定于任务的工具集为网络浏览器等通用工具提供了替代方案,同时比 GUI 更易于开发和维护。然而,当前的通用代理主要依赖网络浏览器与环境进行交互。在这里,我们引入 TheMCPCompany,一个用于评估工具调用代理在涉及与各种真实服务交互的任务上的基准。我们使用这些服务的 REST API 创建 MCP 服务器,其中包括超过 18,000 个工具。我们还为每个任务提供了手动注释的真实工具。在我们的实验中,我们使用真实工具展示了工具调用代理在假设完美工具检索的情况下提高性能和降低成本的潜力。接下来,我们探索使用工具检索的代理性能,以研究基于工具的代理的实际实用性。虽然所有具有工具检索的模型表现与基于浏览器的代理相似或更好,但较小的模型无法通过检索充分利用可用工具。另一方面,GPT-5 在工具检索方面的性能与其在真实工具方面的性能非常接近。总的来说,我们的工作表明,最先进的推理模型在发现简单环境中的工具方面是有效的,但在导航复杂的企业环境时却严重受阻。TheMCPCompany 揭示,导航数万个工具并以非平凡的方式组合它们以解决复杂问题,对于当前模型来说仍然是一个具有挑战性的任务,需要更好的推理和更好的检索模型。