⏶27
迈向个性化深度研究:基准和评估
发表
由
Ningyu Zhang 提交
作者: Yuan Liang, Jiaxian Li,
Yuqing Wang, Piaohong Wang, Motong Tian, Pai Liu, Shuofei Qiao, Runnan Fang, He Zhu, Ge Zhang, Minghao Liu, Yuchen Eleanor Jiang,
Ningyu Zhang, Wangchunshu Zhou
摘要
AI 生成总结
一个名为 Personalized Deep Research Bench 的新基准,使用 PQR 评估框架,评估了深度研究智能体在各种任务和用户配置文件中的个性化能力。深度研究代理(DRAs)能够自主进行复杂的调查并生成全面的报告,展现出强大的现实世界应用潜力。然而,现有的评估主要依赖于封闭式基准测试,而开放式深度研究基准测试仍然稀缺,并且通常会忽略个性化场景。为了弥合这一差距,我们推出了“个性化深度研究基准”(Personalized Deep Research Bench),这是第一个用于评估DRA个性化的基准测试。它将10个领域的50个多样化研究任务与25个真实用户画像配对,这些用户画像结合了结构化角色属性和动态的现实世界语境,生成了250个逼真的用户-任务查询。为了评估系统性能,我们提出了PQR评估框架,该框架共同衡量(P)个性化对齐、(Q)内容质量和(R)事实可靠性。我们在一系列系统上进行的实验突显了当前处理个性化深度研究的能力和局限性。这项工作为开发和评估下一代真正个性化的AI研究助手奠定了严谨的基础。
我们介绍了 Personalized Deep Research Bench,这是第一个用于评估深度研究代理中个性化水平的基准测试。