MM-BrowseComp:用于多模态浏览代理的综合基准测试


摘要
评论

纯文本信息足以满足 LLM/VLM Web 代理的需求吗?🤔 显然不够。🙅♂️ 现代网络是由文本、图像🖼️和视频🎥组成的丰富织锦。为了真正帮助我们,代理需要理解这一切。这就是我们构建 MM-BrowseComp 的原因。🌐
我们隆重推出 MM-BrowseComp 🚀,这是一个旨在推动 Web 代理超越文本的新基准。它包含 224 个手工制作的任务✍️,要求代理不仅要阅读,还要能够看到👀并理解多模态内容来找到答案。
数据集和代码 @GitHub: https://github.com/MMBrowseComp/MM-BrowseComp
Huggingface: https://huggingface.co/datasets/mmbrowsecomp/MMBrowseComp
arXiv 页面: https://www.arxiv.org/abs/2508.13186
每日论文: https://huggingface.co/papers/2508.13186

[1/6]
我们的主要发现是什么?🤯 即使是最强大的模型也尚未准备好应对多模态网络。像OpenAI的o3(仅使用工具)这样的顶级模型,准确率仅达到29.02%📉,这表明它们处理视觉网络的能力存在显著差距。🤖🕸️
[2/6]
当前模型在多模态内容方面尤其困难。我们的细粒度分析表明,当信息存在于图像🖼️➡️😩或视频🎥➡️😵中时,代理的表现会显著变差。它们的多模态能力根本不够格。
[3/6]
今天的代理并非真正意义上的多模态推理者。🧠它们通常依赖于单独的字幕工具来理解图像🖼️➡️💬,这会导致信息丢失,有时甚至出现虚构的细节。这凸显了对具有集成、原生多模态推理能力的模型的需要。💡
[4/6]
能够“反思”自己行动的代理表现得更好。🧠✨我们发现采用反思和ReAct风格机制的架构更加鲁棒。💪它们可以从错误中恢复,并且不会盲目相信它们的工具——这是处理复杂网络任务的关键技能。✅
[5/6]
成功需要双重威胁:强大的推理能力和完整的工具集。🏆我们的评估表明,仅在一个领域表现突出的模型则表现不佳。最佳性能来自于强大的推理引擎🧠和全面的工具集🛠️的协同作用。🤝
[6/6]
仅仅让代理尝试更多次并不能解决核心问题。🔁我们的分析表明,增加测试时的尝试次数只能带来边际收益。这表明主要瓶颈在于推理能力的根本性缺乏,而不仅仅是第一次尝试时的运气不好。🎲❌
MM-BrowseComp:多模态浏览代理的综合基准,仓库地址:https://github.com/MMBrowseComp/MM-BrowseComp