DeepScholar-Bench:用于生成研究合成的实时基准和自动化评估

发表
taesiritaesiri 提交
作者: Liana Patel, Negar ArabzadehNegar Arabzadeh, Harshit Gupta, Ankita Sundar, Ion Stoica, Matei ZahariaMatei Zaharia, Carlos GuestrinCarlos Guestrin

摘要

研究和综合知识的能力是人类专业知识和进步的核心。一类新兴的系统通过生成式研究综合,为这些令人兴奋的能力提供了承诺,它们能够检索实时网络信息,并将发现的来源综合成带有引用的长篇摘要。然而,对这类系统进行评估仍然是一个开放的挑战:现有的问答基准测试侧重于短篇事实性回答,而专家精心策划的数据集则存在过时和数据污染的风险。两者都未能捕捉到真实研究综合任务的复杂性和演变性。在这项工作中,我们引入DeepScholar-bench,一个实时的基准测试和全面的自动化评估框架,旨在评估生成式研究综合。DeepScholar-bench的查询来自近期高质量的ArXiv论文,并专注于真实的研究综合任务:通过检索、综合和引用先前的研究来生成论文的“相关工作”部分。我们的评估框架全面地评估了三个关键维度上的性能:知识综合、检索质量和可验证性。我们还开发了DeepScholar-base,一个使用LOTUS API高效实现的参考流水线。使用DeepScholar-bench框架,我们对现有的开源系统、搜索AI、OpenAI的DeepResearch以及DeepScholar-base进行了系统的评估。我们发现DeepScholar-base建立了一个强大的基准,与每个其他方法相比,性能具有竞争力或更高。我们还发现,DeepScholar-bench的得分远未饱和,没有一个系统在所有指标上的得分超过19%。这些结果凸显了DeepScholar-bench的难度,以及它对于AI系统在生成式研究综合方面取得进展的重要性。我们的代码可在https://github.com/guestrin-lab/deepscholar-bench获取。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

研究和综合知识的能力是人类专业知识和进步的核心。一类新兴的系统通过生成式研究综合(在实时网络上进行检索,并将发现的来源综合成长篇、带引用的摘要)来承诺这些令人兴奋的能力。然而,评估此类系统仍然是一个开放的挑战:现有的问答基准侧重于短篇事实性回复,而专家策展的数据集则存在过时和数据污染的风险。两者都未能捕捉到真实研究综合任务的复杂性和不断发展的性质。在这项工作中,我们引入了 DeepScholar-bench,一个实时基准和全面的自动化评估框架,旨在评估生成式研究综合。DeepScholar-bench 从最近的高质量 ArXiv 论文中提取查询,并专注于真实的研究综合任务:通过检索、综合和引用先前研究来生成论文的“相关工作”部分。我们的评估框架全面评估了三个关键维度上的性能:知识综合、检索质量和可验证性。我们还开发了 DeepScholar-base,这是一个使用 LOTUS API 高效实现的参考流程。使用 DeepScholar-bench 框架,我们对之前的开源系统、搜索 AI 的 DeepResearch、OpenAI 的 DeepResearch 和 DeepScholar-base 进行了系统评估。我们发现 DeepScholar-base 建立了一个强大的基线,其性能与所有其他方法相当或更高。我们还发现 DeepScholar-bench 仍远未饱和,没有一个系统在所有指标上的得分超过 19%。这些结果强调了 DeepScholar-bench 的难度,以及它对于实现能够进行生成式研究综合的 AI 系统的进步的重要性。