⏶119
WebWatcher:突破视觉语言深度研究代理新前沿
发表
由
Peng Xia 提交
作者:
Xinyu Geng,
Peng Xia,
Zhen Zhang,
Xinyu Wang,
Qiuchen Wang, Ruixue Ding, Chenxi Wang,
Jialong Wu,
Yida Zhao, Kuan Li, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

摘要
Web 代理,例如 Deep Research,已经展示出超人的认知能力,能够解决极具挑战性的信息检索问题。然而,大多数研究仍主要以文本为中心,忽略了现实世界中的视觉信息。这使得多模态 Deep Research 极具挑战性,因为与基于文本的代理相比,此类代理在感知、逻辑、知识和使用更复杂工具方面需要更强的推理能力。为了解决这一限制,我们引入了 WebWatcher,一个配备增强视觉-语言推理能力的多模态 Deep Research 代理。它利用高质量的合成多模态轨迹进行高效的冷启动训练,利用各种工具进行深度推理,并通过强化学习进一步增强泛化能力。为了更好地评估多模态代理的能力,我们提出了 BrowseComp-VL,这是一个 BrowseComp 风格的基准,需要涉及视觉和文本信息的复杂信息检索。实验结果表明,WebWatcher 在四个具有挑战性的 VQA 基准测试中显著优于专有基线、RAG 工作流和开源代理,这为解决复杂的多模态信息检索任务铺平了道路。


评论
arXiv 论文解读 👉 https://arxivexplained.com/papers/webwatcher-breaking-new-frontier-of-vision-language-deep-research-agent
🎉 在这篇论文中,我们介绍了WebWatcher,一个具有增强视觉-语言推理能力的多模态智能体,用于深度研究。我们的工作提出了一个统一的框架,将复杂的视觉-语言推理与多工具交互相结合。
我们方法的主要特点包括:
BrowseComp-VL 基准测试: 我们提出了一个新的基准测试BrowseComp-VL,用于评估多模态智能体的能力。这个具有挑战性的数据集专为深入的多模态推理和战略规划而设计,它反映了BrowseComp的复杂性,并将其扩展到视觉领域。它强调需要视觉感知和高级信息收集能力的任务。
自动化轨迹生成: 为了提供强大的工具使用能力,我们开发了一个自动化流程来生成高质量、多步骤的推理轨迹。这些轨迹以实际的工具使用行为为基础,并反映了程序决策,用于高效的冷启动训练,并通过强化学习进一步优化。该智能体配备了多种工具,包括网页图像搜索、网页文本搜索、网页访问、代码解释器和内部OCR工具。
卓越性能: WebWatcher在四个具有挑战性的VQA基准测试中显著优于专有基线、RAG工作流和其他开源智能体:人类的最后一次考试(HLE)-VL、BrowseComp-VL、LiveVQA和MMSearch。WebWatcher-32B模型在HLE上取得了18.2%的平均分数,超过了基于GPT-4o的OmniSearch基线。它还在LiveVQA(58.7%)和MMSearch(55.3%)上取得了顶级性能,在要求苛刻的真实世界视觉搜索基准测试中展示了稳定和卓越的结果。
我们将在https://github.com/Alibaba-NLP/WebAgent发布我们的代码和BrowseComp-VL数据集。敬请期待🔥!