使用合成数据训练统一的多模态数据质量分类器

发表
Weizhi WangWeizhi Wang 提交
作者: Weizhi WangWeizhi Wang, Rongmei Lin, Shiyang Li, Colin Lockard, Ritesh Sarkhel, Sanket Lokegaonkar, Jingbo Shang, Xifeng Yan, Nasser Zalmout, Xian Li

摘要

AI 生成总结
UniFilter,一个统一的多模态数据质量分类器,通过过滤高质量的图文和交错数据,增强了多模态大型语言模型(MLLMs),从而提高了零样本推理和上下文学习能力。
多模态大型语言模型(MLLM)通过图像-文本描述数据和交错文档数据的混合数据进行持续预训练,而对图像-文本交错文档数据的高质量过滤方法探索不足。我们提出训练一个高效的 MLLM 作为统一多模态数据质量分类器,以过滤高质量的图像-文本描述和交错数据(UniFilter)。为了解决收集多样化标记的多模态数据的挑战,我们引入了一种半合成方法,该方法利用易于获得的原始图像并生成对应于四个质量级别的文本。这种方法能够高效地创建样本-分数对,用于描述和交错文档数据,以训练 UniFilter。我们将 UniFilter 应用于从 DataComp 描述数据集中精选高质量的描述数据,并从 OBELICS 图像-文本交错数据集中精选交错数据。在过滤数据上预训练的 MLLM 与在基线过滤数据上训练的模型相比,表现出显著增强的能力,实现了更强的零样本推理和上下文学习能力。在视觉监督微调后,这些 UniFilter 驱动的 MLLM 在各种基准测试中表现出更强的性能,突显了高质量多模态预训练的下游益处。我们将用于训练 UniFilter 的合成训练数据、UniFilter 模型检查点以及由 UniFilter 精选的高质量交错文档子集 OBELICS-HQ 发布给社区,以供复现和进一步开发。
查看 arXiv 页面查看 PDF

评论

Weizhi WangWeizhi Wang
论文作者
论文提交者

一个统一的多模态数据质量分类器,用于精选高质量的图像-文本字幕和交织数据