基于知识的多模态处理、检索和过滤视觉问答

发表
hongyuyanghongyuyang 提交
作者: hongyuyangYuyang Hong, Jiaqi Gu, Qi Yang, Lubin Fan, Yue Wu, Ying Wang, Kun Ding, Shiming Xiang, Jieping Ye

摘要

AI 生成总结
一种新的三阶段方法Wiki-PRF,通过视觉语言模型和强化学习提高多模态查询的质量和相关性,从而增强了基于知识的视觉问答。
基于知识的视觉问答(KB-VQA)要求视觉语言模型(VLMs)将视觉理解与外部知识检索相结合。尽管检索增强生成(RAG)通过结合知识库查询在此任务上取得了显著进展,但它在多模态查询的质量和检索结果的相关性方面仍然存在困难。为了克服这些挑战,我们提出了一种名为Wiki-PRF的新型三阶段方法,包括处理(Processing)、检索(Retrieval)和过滤(Filtering)阶段。处理阶段动态调用视觉工具,提取精确的多模态信息用于检索。检索阶段整合视觉和文本特征,以实现多模态知识检索。过滤阶段对检索结果进行相关性过滤和集中。为此,我们引入了一个视觉语言模型,通过强化学习方式,以答案准确率和格式一致性作为奖励信号进行训练。这增强了模型的推理能力、用于精确查询的工具调用能力,以及过滤不相关内容的能力。在基准数据集(E-VQA和InfoSeek)上的实验显示,答案质量显著提高(36.0和42.8),达到了最先进的性能。代码可在https://github.com/cqu-student/Wiki-PRF 找到。
查看 arXiv 页面查看 PDF

评论

hongyuyanghongyuyang
论文作者
论文提交者

被Neurips 2025接收。基于知识的视觉问答(KB-VQA)要求视觉语言模型(VLMs)将视觉理解与外部知识检索相结合。尽管检索增强生成(RAG)通过结合知识库查询在这一任务上取得了显著进展,但它在多模态查询的质量和检索结果的相关性方面仍然存在挑战。为了克服这些挑战,我们提出了一种新颖的三阶段方法,称为Wiki-PRF,包括处理(Processing)、检索(Retrieval)和过滤(Filtering)阶段。处理阶段动态调用视觉工具,以提取精确的多模态信息进行检索。检索阶段整合视觉和文本特征,以实现多模态知识检索。过滤阶段对检索结果进行相关性过滤和聚焦。为此,我们引入了一个视觉语言模型,该模型通过强化学习的方式,以答案准确性和格式一致性作为奖励信号进行训练。