⏶104
WideSearch:对代理广域信息搜索的基准测试
发表
由
Jiawei Wang 提交
作者: Ryan Wong,
Jiawei Wang, Junjie Zhao, Li Chen, Yan Gao, Long Zhang, Xuan Zhou, Zuo Wang, Kai Xiang,
Ge Zhang, Wenhao Huang, Yang Wang, Ke Wang
摘要
从专业研究到日常规划,许多任务都受到大规模信息寻求的瓶颈限制,这比认知复杂性更具重复性。随着大型语言模型(LLM)的快速发展,由LLM驱动的自动化搜索代理提供了一种有前途的解决方案,可以将人类从这种繁琐的工作中解放出来。然而,由于缺乏合适的基准,这些代理执行此类“广域上下文”收集的可靠性和完整性能力在很大程度上尚未得到评估。为了弥补这一差距,我们引入了WideSearch,一个旨在评估代理在这些大规模收集任务上的可靠性的新基准。该基准包含200个手动策划的问题(100个英文,100个中文),来自15个以上不同领域,基于真实的用户查询。每个任务都要求代理收集大规模的原子信息,这些信息可以逐一客观验证,并将其整理成一个组织良好的输出。严格的五阶段质量控制流程确保了数据集的难度、完整性和可验证性。我们对超过10个最先进的代理搜索系统进行了基准测试,包括单代理、多代理框架和端到端商业系统。大多数系统取得了接近0%的总体成功率,表现最好的也仅达到5%。然而,如果给予足够的时间,多个人工测试人员的交叉验证可以实现接近100%的成功率。这些结果表明,当前的搜索代理在大型信息寻求方面存在严重缺陷,突出了代理搜索领域未来研究和开发的紧迫性。我们的数据集、评估流程和基准测试结果已在https://widesearch-seed.github.io/公开。
评论
arXiv 论文解读 👉 https://arxivexplained.com/papers/widesearch-benchmarking-agentic-broad-info-seeking
“我没时间做”的问题:解决了吗?🤔 今天的LLM代理还没有解决。
我们引入了WideSearch:一个新的基准📊来测试AI代理是否能处理大规模、重复的信息收集——这才是生产力的真正瓶颈。🚧
排行榜和详情:https://widesearch-seed.github.io/