⏶16
MCPEval:基于MCP的AI代理模型自动深度评估
发表
由
Zhiwei Liu 提交
作者: Zhiwei Liu,
Jielin Qiu, Shiyu Wang, Jianguo Zhang, Zuxin Liu, Roshan Ram, Haolin Chen,
Weiran Yao, Huan Wang, Shelby Heinecke, Silvio Savarese, Caiming Xiong
摘要
基于大型语言模型 (LLM) 的智能代理的迅速崛起,凸显了对稳健、可扩展的评估框架的需求。现有的方法依赖于静态基准和劳动密集型的数据收集,限制了实际评估。我们推出了 \oursystemname,一个基于开源模型上下文协议 (MCP) 的框架,可以自动进行端到端的任务生成,并对 LLM 代理在不同领域进行深度评估。MCPEval 标准化了指标,可以无缝集成到原生代理工具中,并消除了构建评估管道的人工工作。在五个真实世界领域进行的实证结果表明,它在揭示细微的、特定领域的性能方面非常有效。我们公开了 MCPEval https://github.com/SalesforceAIResearch/MCPEval,以促进可重复和标准化的 LLM 代理评估。


我们推出了 MCPEval,这是一个基于模型上下文协议 (MCP) 的开源框架,可自动完成 LLM 代理在不同领域的端到端任务生成和深度评估。MCPEval 标准化了指标,与原生代理工具无缝集成,并消除了构建评估流程中的手动工作。在五个真实世界领域进行的实证结果表明,它在揭示细致的、特定于领域的性能方面非常有效。我们公开发布 MCPEval 代码,以促进可重现和标准化的 LLM 代理评估。