⏶28

迈向通用检索增强生成的混合模态检索

10月20日发表

10月21日由 Chenghao Zhang 提交

作者: Chenghao Zhang, Guanting Dong, Xinyu Yang, Zhicheng Dou

摘要

AI 生成总结

Nyx，一个统一的混合模态检索器，通过检索和推理混合模态数据来增强视觉语言生成，在实际场景中优于现有的RAG系统。

检索增强生成（RAG）已成为增强大型语言模型（LLMs）的强大范式，通过从外部语料库检索相关文档。然而，现有的RAG系统主要关注单模态文本文档，在查询和文档可能包含混合模态（如文本和图像）的真实场景中往往表现不佳。在本文中，我们解决了通用检索增强生成（URAG）的挑战，它涉及检索和推理混合模态信息，以改进视觉语言生成。为此，我们提出了Nyx，一个为URAG场景量身定制的统一混合模态到混合模态检索器。为了缓解真实混合模态数据的稀缺性，我们引入了一个四阶段的自动化生成和过滤流程，利用网络文档构建NyxQA，这是一个包含多样化的混合模态问答对的数据集，更能反映真实世界的信息需求。基于这个高质量的数据集，我们采用了一个两阶段的Nyx训练框架：首先，我们在NyxQA以及各种开源检索数据集上进行预训练，然后使用下游视觉语言模型（VLMs）的反馈进行监督微调，以使检索输出与生成偏好保持一致。实验结果表明，Nyx不仅在标准的纯文本RAG基准测试上表现具有竞争力，而且在更通用和真实的URAG设置中表现出色，显著提高了视觉语言任务的生成质量。

查看 arXiv 页面查看 PDF

Chenghao Zhang

论文提交者

我们提出了 Nyx，一个为 URAG 场景量身定制的统一混合模态检索器，并构建了 NyxQA，一个大规模的混合模态 QA 数据集。我们的框架包括：

一个四阶段的自动化流程，用于生成逼真的多模态 QA 对。
一个两阶段的训练框架，结合了在 NyxQA 上的预训练以及带有 VLM 反馈的监督微调。
在纯文本 RAG 基准测试和视觉语言 URAG 任务上均表现出色。

迈向通用检索增强生成的混合模态检索

摘要

评论