⏶6
通过报告理解DeepResearch
发表
由
Tianyu Fan 提交
作者:
Tianyu Fan, Xinyao Niu, Yuxiang Zheng, Fengji Zhang, Chengen Huang, Bei Chen, Junyang Lin, Chao Huang
摘要
AI 生成总结
一个框架通过使用“LLM 作为裁判”的方法,评估 DeepResearch 系统的研究报告的质量、冗余度和事实准确性。DeepResearch代理代表了一种变革性的AI范式,通过复杂的推理和多工具集成进行专家级研究。然而,由于研究场景开放且现有基准测试侧重于孤立的能力而非整体性能,评估这些系统仍然极具挑战性。与传统的LLM任务不同,DeepResearch系统必须综合各种来源,产生见解,并提出连贯的发现,而这些能力很难进行简单的验证。为了弥补这一不足,我们引入了DeepResearch-ReportEval,一个旨在通过其最能代表的输出——研究报告来评估DeepResearch系统的综合框架。我们的方法系统地衡量三个维度:质量、冗余度和事实性,采用创新的“LLM作为裁判”方法,实现了与专家的强一致性。我们贡献了一个包含100个精心策划的查询的标准基准测试,涵盖12个真实世界类别,能够进行系统的能力比较。我们对四家领先的商业系统进行的评估揭示了不同的设计理念和性能权衡,为DeepResearch从信息助手向智能研究伙伴的演变奠定了基础性见解。源代码和数据可在以下网址获取:https://github.com/HKUDS/DeepResearch-Eval。
很高兴分享我们的新工作:“通过报告理解深度研究”! 📄
我们希望它能引发关于我们如何构建和评估深度研究系统的讨论。🤔
🔍 动机:在深度研究中,最终的报告——而不仅仅是搜索结果——才是用户真正关心的。那么,除了检索之外,我们还应该评估什么?
🧪 实验:我们构建了涵盖 12 个领域的 100 个真实世界研究问题,并测试了 4 个领先的商业系统。
💡 主要见解(参见第 4 节!):
– 常常被忽视的预研究阶段(例如,查询澄清、LLM 后续问题)比我们想象的更为关键。
– 深度研究中的搜索优先考虑广度,而不是单一的“完美”答案——这改变了我们对检索的思考方式。
这个领域还有很多值得探索的地方——而且到目前为止的讨论却少得惊人!🔄