MM-BrowseComp:用于多模态浏览代理的综合基准测试

发表
Xingyuan BuXingyuan Bu 提交
作者: Shilong Li, Xingyuan BuXingyuan Bu, Wenjie Wang, Jiaheng Liu, Jun Dong, Haoyang He, Hao Lu, Haozhe Zhang, Chenchen Jing, Zhen Li, Chuanhao Li, Jiayi Tian, Chenchen Zhang, Tianhao Peng, Yancheng He, Jihao Gu, Yuanxing Zhang, Jian Yang, Ge ZhangGe Zhang, Wenhao Huang, Wangchunshu Zhou, Zhaoxiang Zhang, Ruizhe Ding, Shilei Wen

摘要

具有高级推理和工具使用能力的人工智能代理在网页深度搜索方面表现出了令人印象深刻的性能。尽管现有的 BrowseComp 等基准测试评估了这些浏览能力,但它们主要关注文本信息,而忽略了多模态内容的普遍性。为弥合这一差距,我们推出了 MM-BrowseComp,一个包含 224 个具有挑战性的手工问题的新基准测试,专门用于评估代理的多模态检索和推理能力。这些问题通常在提示中包含图像,并且在搜索和推理过程中遇到的关键信息也可能嵌入在网页的图像或视频中。因此,仅依赖文本的方法对于我们的基准测试来说是不够的。此外,我们为每个问题提供了一份经过验证的检查表,以便对多模态依赖关系和推理路径进行细粒度分析。我们对 MM-BrowseComp 上最先进模型的全面评估表明,即使是最顶尖的模型,如 OpenAI o3(使用工具),准确率也仅为 29.02%,这凸显了当前模型在多模态能力上的不足以及缺乏原生的多模态推理能力。
查看 arXiv 页面查看 PDF

评论

Xingyuan BuXingyuan Bu
论文作者
论文提交者

MM-BrowseComp:多模态浏览代理的综合基准,仓库地址:https://github.com/MMBrowseComp/MM-BrowseComp

Xingyuan BuXingyuan Bu
论文作者
论文提交者

纯文本信息足以满足 LLM/VLM Web 代理的需求吗?🤔 显然不够。🙅‍♂️ 现代网络是由文本、图像🖼️和视频🎥组成的丰富织锦。为了真正帮助我们,代理需要理解这一切。这就是我们构建 MM-BrowseComp 的原因。🌐

我们隆重推出 MM-BrowseComp 🚀,这是一个旨在推动 Web 代理超越文本的新基准。它包含 224 个手工制作的任务✍️,要求代理不仅要阅读,还要能够看到👀并理解多模态内容来找到答案。

数据集和代码 @GitHub: https://github.com/MMBrowseComp/MM-BrowseComp

Huggingface: https://huggingface.co/datasets/mmbrowsecomp/MMBrowseComp

arXiv 页面: https://www.arxiv.org/abs/2508.13186

每日论文: https://huggingface.co/papers/2508.13186

image.png

image.png

image.png

Xingyuan BuXingyuan Bu
论文作者
论文提交者

[1/6]

我们的主要发现是什么?🤯 即使是最强大的模型也尚未准备好应对多模态网络。像OpenAI的o3(仅使用工具)这样的顶级模型,准确率仅达到29.02%📉,这表明它们处理视觉网络的能力存在显著差距。🤖🕸️

image.png

[2/6]

当前模型在多模态内容方面尤其困难。我们的细粒度分析表明,当信息存在于图像🖼️➡️😩或视频🎥➡️😵中时,代理的表现会显著变差。它们的多模态能力根本不够格。

image.png

[3/6]

今天的代理并非真正意义上的多模态推理者。🧠它们通常依赖于单独的字幕工具来理解图像🖼️➡️💬,这会导致信息丢失,有时甚至出现虚构的细节。这凸显了对具有集成、原生多模态推理能力的模型的需要。💡

image.png

[4/6]

能够“反思”自己行动的代理表现得更好。🧠✨我们发现采用反思和ReAct风格机制的架构更加鲁棒。💪它们可以从错误中恢复,并且不会盲目相信它们的工具——这是处理复杂网络任务的关键技能。✅

[5/6]

成功需要双重威胁:强大的推理能力和完整的工具集。🏆我们的评估表明,仅在一个领域表现突出的模型则表现不佳。最佳性能来自于强大的推理引擎🧠和全面的工具集🛠️的协同作用。🤝

[6/6]

仅仅让代理尝试更多次并不能解决核心问题。🔁我们的分析表明,增加测试时的尝试次数只能带来边际收益。这表明主要瓶颈在于推理能力的根本性缺乏,而不仅仅是第一次尝试时的运气不好。🎲❌

image.png