⏶12
DeepMMSearch-R1:赋能多模态 LLM 进行多模态网络搜索
发表
由
taesiri 提交

作者:
Kartik Narayan, Yang Xu, Tian Cao, Kavya Nerella, Vishal M. Patel, Navid Shiee, Peter Grasch, Chao Jia, Yinfei Yang, Zhe Gan
摘要
现实世界应用中的多模态大型语言模型(MLLM)需要访问外部知识源,并且必须对动态的、不断变化的现实世界信息保持响应,才能满足信息检索和知识密集型用户查询的需求。现有方法,如检索增强生成(RAG)方法、搜索代理和配备搜索功能的 MLLM,通常存在管道僵化、搜索调用过多以及搜索查询构建不佳等问题,导致效率低下和结果不佳。为了解决这些局限性,我们提出了 DeepMMSearch-R1,这是首个能够执行按需、多轮网络搜索并动态构建图像和文本搜索工具查询的多模态 LLM。具体来说,DeepMMSearch-R1 可以根据输入图像的相关裁剪部分启动网络搜索,从而提高图像搜索的效率,并能根据检索到的信息迭代地调整文本搜索查询,从而实现自我反思和自我纠正。我们的方法依赖于一个两阶段的训练流水线:一个冷启动监督微调阶段,然后是一个在线强化学习优化阶段。为了训练,我们引入了 DeepMMSearchVQA,这是一个新颖的多模态 VQA 数据集,通过一个自动流水线创建,并与来自网络搜索工具的真实世界信息混合。该数据集包含多样化的、多跳的查询,集成了文本和视觉信息,教会模型何时搜索、搜索什么、使用哪个搜索工具以及如何对检索到的信息进行推理。我们在各种知识密集型基准上进行了大量实验,以证明我们方法的优越性。最后,我们分析了结果,并提供了对推进多模态网络搜索有价值的见解。
在实际应用中,多模态大型语言模型(MLLMs)需要访问外部知识源,并且必须对动态的、不断变化的现实世界信息做出响应,以便处理信息检索和知识密集型用户查询。现有方法,如检索增强生成(RAG)方法、搜索代理和配备搜索功能的 MLLM,通常存在流程僵化、搜索调用过多以及搜索查询构造不当等问题,导致效率低下和结果不佳。为了解决这些限制,我们提出了 DeepMMSearch-R1,这是第一个能够执行按需、多轮网络搜索并动态生成图像和文本搜索工具查询的多模态 LLM。具体来说,DeepMMSearch-R1 可以根据输入图像的相关裁剪部分启动网络搜索,从而提高图像搜索效率,并可以根据检索到的信息迭代地调整文本搜索查询,从而实现自我反思和自我纠正。我们的方法依赖于一个两阶段训练流程:冷启动监督微调阶段,然后是在线强化学习优化。在训练过程中,我们引入了 DeepMMSearchVQA,这是一个新颖的多模态 VQA 数据集,通过自动化管道与来自网络搜索工具的真实世界信息混合创建而成。该数据集包含多样化的多跳查询,整合了文本和视觉信息,教会模型何时搜索、搜索什么、使用哪个搜索工具以及如何推理检索到的信息。我们在一系列知识密集型基准测试中进行了广泛的实验,以证明我们方法的优越性。最后,我们分析结果并提供对推进多模态网络搜索有价值的见解。