⏶14
ReportBench:通过学术调查任务评估深度研究代理
发表
由
Minghao Li 提交

作者: Minghao Li, Ying Zeng, Zhihao Cheng, Cong Ma, Kai Jia
摘要
深度研究代理的出现,极大地缩短了进行广泛研究任务所需的时间。然而,这些任务本身对事实准确性和全面性有着严格的要求,因此在广泛采用之前需要进行彻底的评估。在本文中,我们提出了 ReportBench,这是一个系统性的基准测试,旨在评估大型语言模型 (LLM) 生成的研究报告的内容质量。我们的评估侧重于两个关键维度:(1) 所引用文献的质量和相关性,以及 (2) 生成报告中陈述的忠实度和真实性。ReportBench 利用 arXiv 上提供的高质量已发表的综述论文作为黄金标准参考,我们通过反向提示工程从这些论文中提取特定领域的提示,并建立一个全面的评估语料库。此外,我们在 ReportBench 中开发了一个基于代理的自动化框架,该框架通过提取引用和陈述,检查引用内容与原始来源的忠实度,并使用基于网络的资源验证非引用声明来系统地分析生成的报告。实证评估表明,OpenAI 和 Google 等公司开发的商业深度研究代理生成的报告,在全面性和可靠性方面始终优于经过搜索或浏览工具增强的独立 LLM。然而,在研究覆盖的广度和深度以及事实一致性方面,仍有很大的改进空间。完整的代码和数据将在以下链接发布:https://github.com/ByteDance-BandAI/ReportBench
我们推出了ReportBench,这是首个用于评估深度研究代理生成的学术报告的系统性基准。通过利用arXiv上专家撰写的调查论文作为金标准,ReportBench评估了引文文献的质量和陈述的事实准确性。它提供了一个基于引文和基于网络的自动验证流程,我们开源了所有数据集、提示词和评估脚本,以支持可复现性和社区进步。