⏶60
DeepResearch Bench:一个用于深度研究智能体的综合基准
发表
由
Mingxuan Du 提交
作者:
Mingxuan Du, Benfeng Xu,
Chiwei Zhu, Xiaorui Wang, Zhendong Mao

摘要
深度研究智能体(Deep Research Agents)是基于大型语言模型(LLM)的智能体中的一个突出类别。通过自主协调多步网络探索、定向检索和更高阶的合成,它们将海量在线信息转化为分析师级别的、富含引用的报告——将数小时的手动案头研究压缩到几分钟内完成。然而,目前仍然缺乏一个能够系统评估这些智能体能力的综合基准。为了弥合这一差距,我们提出了 DeepResearch Bench,这是一个包含 100 个博士级研究任务的基准,每个任务都由 22 个不同领域的领域专家精心设计。评估 DRA 本质上复杂且劳动密集。因此,我们提出了两种新颖的方法,它们与人类判断具有很强的对齐性。第一种是基于参考的方法,采用自适应标准评估生成的研究报告的质量。另一种框架用于评估 DRA 的信息检索和收集能力,通过评估其有效引用计数和总体引用准确性。我们已经开源了 DeepResearch Bench 和这些框架的关键组件,地址是 https://github.com/Ayanami0730/deep_research_bench,以加速实际 LLM 智能体的开发。
评论
论文作者
论文提交者
此评论已隐藏。
这是该论文的AI生成完整音频分析:https://arxivexplained.com/papers/deepresearch-bench-a-comprehensive-benchmark-for-deep-research-agents