迈向通用检索增强生成的混合模态检索

发表
Chenghao ZhangChenghao Zhang 提交
作者: Chenghao Zhang, Guanting Dong, Xinyu Yang, Zhicheng Dou

摘要

AI 生成总结
Nyx,一个统一的混合模态检索器,通过检索和推理混合模态数据来增强视觉语言生成,在实际场景中优于现有的RAG系统。
检索增强生成(RAG)已成为增强大型语言模型(LLMs)的强大范式,通过从外部语料库检索相关文档。然而,现有的RAG系统主要关注单模态文本文档,在查询和文档可能包含混合模态(如文本和图像)的真实场景中往往表现不佳。在本文中,我们解决了通用检索增强生成(URAG)的挑战,它涉及检索和推理混合模态信息,以改进视觉语言生成。为此,我们提出了Nyx,一个为URAG场景量身定制的统一混合模态到混合模态检索器。为了缓解真实混合模态数据的稀缺性,我们引入了一个四阶段的自动化生成和过滤流程,利用网络文档构建NyxQA,这是一个包含多样化的混合模态问答对的数据集,更能反映真实世界的信息需求。基于这个高质量的数据集,我们采用了一个两阶段的Nyx训练框架:首先,我们在NyxQA以及各种开源检索数据集上进行预训练,然后使用下游视觉语言模型(VLMs)的反馈进行监督微调,以使检索输出与生成偏好保持一致。实验结果表明,Nyx不仅在标准的纯文本RAG基准测试上表现具有竞争力,而且在更通用和真实的URAG设置中表现出色,显著提高了视觉语言任务的生成质量。
查看 arXiv 页面查看 PDF

评论

Chenghao ZhangChenghao Zhang
论文提交者

我们提出了 Nyx,一个为 URAG 场景量身定制的统一混合模态检索器,并构建了 NyxQA,一个大规模的混合模态 QA 数据集。我们的框架包括:

  • 一个四阶段的自动化流程,用于生成逼真的多模态 QA 对。
  • 一个两阶段的训练框架,结合了在 NyxQA 上的预训练以及带有 VLM 反馈的监督微调。
  • 在纯文本 RAG 基准测试和视觉语言 URAG 任务上均表现出色。

image