⏶18
一个严谨的基准,具有多维度评估深度研究智能体:从答案到报告
发表
由
taesiri 提交

作者:
Yang Yao,
Yixu Wang,
Yuxuan Zhang,
Yi Lu, Tianle Gu, Lingyu Li, Dingyi Zhao,
Keming Wu, Haozhe Wang,
Ping Nie, Yan Teng, Yingchun Wang



摘要
AI 生成总结
一个用于深度研究智能体 (DRAs) 的基准和评估框架,使用多维度指标来评估它们在复杂任务上的性能。人工智能正在经历从封闭语言模型到能够进行外部感知和信息集成,并相互连接的代理系统的范式转变。作为一种代表性体现,深度研究代理(DRA)系统地展示了任务分解、跨源检索、多阶段推理和结构化输出的能力,这些能力显著提高了在复杂和开放式任务上的性能。然而,现有的基准在评估维度、响应格式和评分机制方面仍然存在不足,限制了它们有效评估此类系统的能力。本文为 DRA 和报告式响应引入了一个严格的基准和多维度评估框架。该基准包含 214 个专家精心策划的挑战性查询,分布在 10 个广泛的主题领域,每个查询都附带手动构建的参考包,以支持复合评估。该框架能够全面评估 DRA 生成的长篇报告,并包含用于语义质量、主题焦点和检索可信度的集成评分指标。广泛的实验证实了主流 DRA 相较于经过网络搜索工具增强的推理模型的卓越性能,但仍显示出进一步改进的巨大空间。本研究为 DRA 系统的能力评估、架构改进和范式推进提供了坚实的基础。
人工智能正在经历从封闭语言模型到能够进行外部感知和信息集成的互联代理系统的范式转变。作为代表性的体现,深度研究代理 (DRA) 系统地展示了任务分解、跨源检索、多阶段推理和结构化输出的能力,这显著提高了复杂和开放式任务的性能。然而,现有的基准在评估维度、响应格式和评分机制方面仍然不足,限制了它们有效评估此类系统的能力。本文介绍了一个严格的基准和针对 DRA 和报告式响应的多维度评估框架。该基准包含 214 个专家策划的挑战性查询,分布在 10 个广泛的主题领域,每个查询都附带手动构建的参考包以支持综合评估。该框架能够对 DRA 生成的长篇报告进行全面评估,包括用于语义质量、主题焦点和检索可信度的集成评分指标。广泛的实验证实了主流 DRA 相对于增强网络搜索工具的推理模型的卓越性能,但仍显示出进一步改进的巨大空间。这项研究为 DRA 系统的能力评估、架构优化和范式推进奠定了坚实的基础。