BrowseComp-ZH:中文环境下大型语言模型的网页浏览能力基准测试

发表
Peilin ZhouPeilin Zhou 提交
作者: Peilin ZhouPeilin Zhou, Bruce Leon, Xiang YingXiang Ying, Can Zhang, Yifan Shao, Qichen YEQichen Ye, Dading Chong, Zhiling JinZhiling Jin, Chenxuan Xie, Meng Cao, Yuxin Gu, Sixin Hong, Jing Ren, Jian Chen, Chao Liu, Yining Hua

摘要

随着大型语言模型 (LLM) 演变成工具使用代理,实时浏览网络的能力已成为衡量其推理和检索能力的关键标准。现有基准测试(例如 BrowseComp)专注于英语,忽视了其他主要信息生态系统(最值得注意的是中文)的语言、基础设施和审查相关的复杂性。为了解决这一差距,我们引入了 BrowseComp-ZH,这是一个高难度基准测试,专门构建用于全面评估 LLM 代理在中文网络上的表现。BrowseComp-ZH 包含 289 个多跳问题,涵盖 11 个不同领域。每个问题都源自一个简短、客观且易于验证的答案(例如,日期、数字或专有名词),并逆向设计。应用了两阶段质量控制协议,力求高问题难度和答案唯一性。我们在我们提出的 BrowseComp-ZH 上评估了 20 多个最先进的语言模型和代理式搜索系统。尽管它们具有强大的对话和检索能力,大多数模型表现非常差:大量模型的准确率低于 10%,只有少数模型超过 20%。即使是表现最好的系统,OpenAI 的 DeepResearch,也仅达到 42.9%。这些结果表明 BrowseComp-ZH 的相当大的难度,成功不仅需要有效的检索策略,还需要复杂的推理和信息整合能力——这些能力是当前模型仍在努力掌握的。我们的数据集、构建指南和基准测试结果已在 https://github.com/PALIN2018/BrowseComp-ZH 公开发布。
查看 arXiv 页面查看 PDF
BrowseComp-ZH:中文环境下大型语言模型的网页浏览能力基准测试
BrowseComp-ZH:中文环境下大型语言模型的网页浏览能力基准测试

评论

Peilin ZhouPeilin Zhou
论文作者
论文提交者

💫 很高兴分享我们的最新工作:BrowseComp-ZH,第一个专门为评估大型语言模型 (LLMs) 在中文网页浏览任务上的表现而设计的高难度基准测试。

BrowseComp-ZH 是一个重要的测试平台,用于评估:

推理增强型 LLMs

基于 Agent 的搜索系统

在非英语语境下的检索增强生成 (RAG)

我们构建了涵盖 11 个领域(例如 电影、艺术、历史、医学)的 289 个多约束问题,每个问题都从事实答案逆向设计,并经过严格的两阶段质量控制流程验证。

📊 尽管在现有基准测试上表现强劲,主流模型在 BrowseComp-ZH 上表现显著不足:

1️⃣ GPT-4o:准确率 6.2%

2️⃣ 大多数模型得分低于 10%

3️⃣ 即使是表现最好的系统 OpenAI DeepResearch,也只达到了 42.9%

为什么这个基准测试如此具有挑战性?

❗ 中文网页内容在不同平台之间高度碎片化

❗ 任务需要多跳推理和跨页面综合

这项工作是香港科技大学(广州)、北京大学、浙江大学、阿里巴巴、字节跳动、蔚来等机构的合作成果。我们希望它能为多语言、工具使用型 LLM Agent 的发展做出贡献,并激发中文网络智能领域的进一步研究。