⏶36
BrowseComp-Plus:一个更公平、更透明的深度研究代理评估基准
发表
由
Xueguang Ma 提交
作者:
Zijian Chen,
Xueguang Ma,
Shengyao Zhuang,
Ping Nie, Kai Zou, Andrew Liu, Joshua Green, Kshama Patel, Ruoxi Meng, Mingyi Su, Sahel Sharifymoghaddam, Yanxi Li, Haoran Hong, Xinyu Shi,
Xuye Liu,
Nandan Thakur, Crystina Zhang, Luyu Gao, Wenhu Chen, Jimmy Lin



摘要
深度研究智能体,即将大型语言模型(LLMs)与搜索工具相结合,已成功地提高了处理需要迭代搜索规划和搜索结果推理的复杂查询的效率。目前对BrowseComp等基准的评估依赖于黑盒实时网络搜索API,存在显著的局限性:(1) 公平性:动态且不透明的网络API阻碍了深度研究方法的公平比较和可复现性;(2) 透明度:缺乏对文档语料库的控制使得难以隔离检索器贡献。换句话说,目前的评估可能在特定时间比较一个完整的深度研究系统,但它们未能促进良好控制的实验,从而无法深入了解底层深度研究LLMs的能力。为了解决这些挑战,我们引入了BrowseComp-Plus,一个源自BrowseComp的基准,它采用了一个固定、精心策划的语料库。BrowseComp-Plus中的每个查询都包含人工验证的支持文档和挖掘出的具有挑战性的负样本,从而能够进行受控实验。该基准被证明能够有效区分深度研究系统的性能。例如,开源模型Search-R1与BM25检索器配对时,准确率达到3.86%,而GPT-5则达到55.9%。将GPT-5与Qwen3-Embedding-8B检索器集成,其准确率进一步提升至70.1%,同时搜索调用次数更少。该基准允许对深度研究智能体和检索方法进行全面评估和解耦分析,从而深入了解深度研究系统中的检索效率、引用准确性和上下文工程。

一种更公平、透明的深度研究智能体评估基准。
这是一个基于BrowseComp构建的全新深度研究评估基准。它具有:
一个固定、精心策划的网络文档语料库
人工验证的正面文档
网络挖掘的具有挑战性的负面文档
BrowseComp-Plus允许公平比较不同的LLM搜索代理,并评估不同检索器对深度研究的影响。