⏶11
LiveResearchBench:用户中心野外深度研究的实时基准
发表
由
Jiayu (Mila) Wang 提交
作者:
Jiayu Wang, Yifei Ming, Riya Dulepet, Qinglin Chen, Austin Xu, Zixuan Ke, Frederic Sala, Aws Albarghouthi, Caiming Xiong, Shafiq Joty
摘要
AI 生成总结
LiveResearchBench 和 DeepEval 提供了一个全面的框架,用于评估跨越各种领域的深度研究系统,重点关注实时网络搜索、综合和引用支持的长篇报告。深入研究——通过搜索和综合来自数百个实时网络源的信息来生成全面的、引用为依据的报告——是智能体系统的一个重要前沿。为了严格评估这一能力,有四个原则至关重要:任务应(1)以用户为中心,反映真实的信息需求;(2)动态,需要超出参数知识的最新信息;(3)明确,确保用户之间的一致性解释;以及(4)多方面和搜索密集型,需要搜索大量网络源和深入分析。现有的基准未能满足这些原则,通常关注狭窄的领域或提出模糊的问题,这阻碍了公平的比较。在这些原则的指导下,我们推出了LiveResearchBench,一个包含100个专家精心策划的任务的基准,涵盖日常生活、企业和学术界,每个任务都需要广泛、动态、实时的网络搜索和综合。LiveResearchBench投入了超过1500小时的人力劳动构建,为系统评估提供了严格的基础。为了评估引用为依据的长篇报告,我们推出了DeepEval,这是一个全面的套件,涵盖内容和报告级别的质量,包括覆盖范围、呈现、引用准确性和关联性、一致性和分析深度。DeepEval集成了四种互补的评估协议,每种协议都旨在确保稳定的评估和与人类判断的高度一致性。利用LiveResearchBench和DeepEval,我们对17个前沿深入研究系统进行了全面评估,包括单智能体网络搜索、单智能体深入研究和多智能体系统。我们的分析揭示了当前的优势、经常出现的失败模式以及可靠、深刻的深入研究所需的关键系统组件。
很高兴分享我们在深度研究方面的工作!
在这项工作中,我们认为四个任务设计原则对于深度研究的公平比较至关重要:(1) 以用户为中心,(2) 动态,(3) 明确,以及 (4) 多方面且搜索密集。LiveResearchBench 完全遵循这些原则。它包含 100 个专家精心策划的问题,附有详细的检查清单,耗费了 1,500 多个小时的人工努力以及一个 11 步的策划和验证流程,以确保基准测试真正满足这些标准。
评估开放式、长篇报告同样具有挑战性。仅仅使用一个 LLM 作为评委来分配分数或偏好,会导致模型评估不稳定且不可靠。为了解决这个问题,我们提出了 DeepEval,这是一个包含六个指标的框架,可以使长篇评估更加稳健——因此模型无法通过生成更短或更安全报告来“破解”其输出。使用 LLM 集成作为评委,每个指标都遵循定制协议:基于检查清单的(用于演示和覆盖范围)、逐点(加法)的(用于一致性和引文关联)、成对比较(用于分析深度)以及评分树(用于引文准确性)。这种设置产生了稳定的评估结果,并与人类专家高度一致!
通过 LiveResearchBench 和 DeepEval,我们对 17 个开放式和专有代理系统进行了基准测试,揭示了当前的优势、反复出现的故障模式以及许多有趣的见解,包括目前大多数系统更像是深度搜索者而不是深度研究者。
我们发现一个尤其吸引人的开放性挑战:对于多代理系统,增加子代理和工具调用的数量很容易达到数千个(>3,000)网页。如何在不丢失关键证据的情况下压缩这些信息?当内容部分冗余时,如何合并重叠部分而不丢弃独特信号?当所有内容都相关且重要但仍超出上下文限制时,如何保留核心内容?
更多细节请参阅论文——您不会后悔的!