⏶40
DeepResearch Arena:通过研讨会式任务首次检验 LLM 的研究能力
发表
由
Haiyuan Wan 提交
作者:
Haiyuan Wan, Chen Yang, Junchi Yu, Meiqi Tu, Jiaxuan Lu, Di Yu, Jianbao Cao, Ben Gao, Jiaqing Xie,
Aoran Wang, Wenlong Zhang, Philip Torr, Dongzhan Zhou

摘要
深度研究代理因其编排多阶段研究工作流程的潜力而备受关注,这些工作流程涵盖了文献综合、方法设计和实证验证。尽管取得了这些进展,但由于难以收集真正吸引研究人员注意力和智力好奇心的前沿研究问题,准确评估其研究能力仍然非常具有挑战性。为了弥补这一差距,我们引入了DeepResearch Arena,这是一个基于学术研讨会的基准,能够捕捉丰富的专家话语和互动,更好地反映真实的研究环境并降低数据泄露的风险。为了自动构建DeepResearch Arena,我们提出了一种多代理分层任务生成(MAHTG)系统,该系统从研讨会记录中提取值得研究的灵感。MAHTG系统进一步将值得研究的灵感转化为高质量的研究任务,确保了研究任务制定的可追溯性,同时过滤掉了噪声。通过MAHTG系统,我们从200多个学术研讨会中精心策划了DeepResearch Arena,其中包含超过10,000个高质量的研究任务,涵盖了文献、历史和科学等12个学科。我们广泛的评估表明,DeepResearch Arena对当前最先进的代理构成了重大挑战,在不同模型之间观察到了明显的性能差距。
DeepResearch Arena 是一个基于研讨会的基准,包含 12 个学科的 10,000 多个研究任务,通过多代理系统自动构建,用于评估深度研究代理在真实、可追溯和具有挑战性的研究工作流程上的表现。