⏶59
MMSearch-R1:激励LMM进行搜索
发表
由
Jinming Wu 提交

作者:
Jinming Wu, Zihao Deng, Wei Li,
Yiding Liu, Bo You,
Bo Li, Zejun Ma, Ziwei Liu



摘要
鉴于真实世界信息的复杂性和动态性,在真实场景中稳健部署大型多模态模型(LMM)需要访问外部知识源。现有方法,如检索增强生成(RAG)和提示工程搜索代理,依赖于僵化的管道,常常导致低效或过度的搜索行为。我们提出了 MMSearch-R1,这是第一个端到端的强化学习框架,它使 LMM 能够在真实世界互联网环境中执行按需、多轮搜索。我们的框架集成了图像和文本搜索工具,允许模型根据基于结果的奖励和搜索惩罚来判断何时以及如何调用它们。为了支持训练,我们通过半自动化管道收集了一个多模态搜索 VQA 数据集,该数据集涵盖了多样化的视觉和文本知识需求,并策划了一个搜索平衡子集,其中包含需要搜索和无需搜索的样本,这对于塑造高效和按需的搜索行为至关重要。在知识密集型和信息搜索 VQA 任务上的大量实验表明,我们的模型不仅优于相同模型大小的基于 RAG 的基线,而且还匹配了更大的基于 RAG 的模型的性能,同时将搜索调用减少了 30% 以上。我们进一步分析了关键的实证发现,为推进多模态搜索研究提供了可操作的见解。
评论

论文作者
论文提交者
此评论已隐藏。