⏶46
Mind2Web 2:使用代理即评审评估代理式搜索
发表
由
Boyu Gou 提交

作者:
Boyu Gou,
Zanming Huang,
Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jiménez Gutiérrez,
Yiheng Shu,
Chan Hee Song, Jiaman Wu, Shijie Chen,
Hanane Nour Moussa, Tianshu Zhang, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su





摘要
智能体搜索(如深度研究系统)代表了用户与网络规模信息交互方式的重大转变,其中大型语言模型能够自主浏览网页、整合信息并返回全面的、有引文支持的答案。虽然这种方法有望带来更高的效率和认知卸载,但智能体搜索日益增长的复杂性和开放性已超越了现有的评估基准和方法论,这些基准和方法论大多假设搜索范围较短且答案是静态的。在本文中,我们引入了Mind2Web 2,这是一个包含130个真实、高质量、长周期任务的基准,这些任务需要实时网页浏览和大量信息整合,耗费了超过1000小时的人工劳动。为了应对评估时变复杂答案的挑战,我们提出了一种新颖的“智能体作为评判者”框架。我们的方法根据树状评分标准设计构建了任务特定的评判智能体,以自动评估答案的正确性和来源归属。我们对九个前沿智能体搜索系统和人类表现进行了全面的评估,并进行了详细的错误分析,为未来的发展提供了见解。表现最佳的系统OpenAI Deep Research已经能够达到人类表现的50-70%,同时耗时减半,显示出巨大的潜力。总而言之,Mind2Web 2为开发和评估下一代智能体搜索系统提供了严谨的基础。
以下是我们为基准测试智能体搜索系统而构建的新基准Mind2Web-2,其中我们创建了130个现实的、长周期任务(其中大部分是时变的)。我们引入了一种新颖的智能体作为评审框架,以自动、全面、可靠地评估智能体搜索系统在这些任务上的表现。我们的评估包括答案正确性以及来源归因,旨在评估前沿智能体搜索系统的实际应用价值。
我们为这项工作投入了数千小时的人力,并从结果中获得了许多见解。希望您也能从中找到有用的信息,以推动下一代智能体搜索系统向前发展😊