⏶59

MMSearch-R1：激励LMM进行搜索

06月25日发表

06月27日由 Jinming Wu 提交

作者: Jinming Wu, Zihao Deng, Wei Li, Yiding Liu, Bo You, Bo Li Bo Li, Zejun Ma, Ziwei Liu

摘要

鉴于真实世界信息的复杂性和动态性，在真实场景中稳健部署大型多模态模型（LMM）需要访问外部知识源。现有方法，如检索增强生成（RAG）和提示工程搜索代理，依赖于僵化的管道，常常导致低效或过度的搜索行为。我们提出了 MMSearch-R1，这是第一个端到端的强化学习框架，它使 LMM 能够在真实世界互联网环境中执行按需、多轮搜索。我们的框架集成了图像和文本搜索工具，允许模型根据基于结果的奖励和搜索惩罚来判断何时以及如何调用它们。为了支持训练，我们通过半自动化管道收集了一个多模态搜索 VQA 数据集，该数据集涵盖了多样化的视觉和文本知识需求，并策划了一个搜索平衡子集，其中包含需要搜索和无需搜索的样本，这对于塑造高效和按需的搜索行为至关重要。在知识密集型和信息搜索 VQA 任务上的大量实验表明，我们的模型不仅优于相同模型大小的基于 RAG 的基线，而且还匹配了更大的基于 RAG 的模型的性能，同时将搜索调用减少了 30% 以上。我们进一步分析了关键的实证发现，为推进多模态搜索研究提供了可操作的见解。

查看 arXiv 页面查看 PDF

Jinming Wu

论文作者

论文提交者

此评论已隐藏。

Jinming Wu

论文作者

论文提交者

本文介绍了MMSearch-R1，一个端到端的RL框架，它使大型多模态模型（LMMs）能够利用真实世界的多模态搜索工具执行按需、多轮搜索。在知识密集型和信息检索型VQA任务上，MMSearch-R1模型优于同等规模的传统RAG基线，并减少了超过30%的搜索调用。

Yujie Zhang

🫡🌟🌟🌟🌟