FG-CLIP:细粒度视觉文本对齐

发表
David LeonDavid Leon 提交
作者: Chunyu XieChunyu Xie, Bin Wang, kongFanjing Kong, Jincheng LiJincheng Li, LiangDawei Liang, Gengshen Zhang, David LeonDawei Leng, Yuhui Yin

摘要

对比语言-图像预训练 (CLIP) 在图像-文本检索和零样本分类等多模态任务中表现出色,但由于其侧重于粗粒度的短文本描述,在细粒度理解方面存在不足。为了解决这个问题,我们提出了细粒度 CLIP (FG-CLIP),它通过三个关键创新增强了细粒度理解能力。首先,我们利用大型多模态模型生成了 16 亿个长文本描述-图像对,用于捕获全局级别的语义细节。其次,构建了一个高质量的数据集,包含 1200 万张图像和 4000 万个区域特定的边界框,并与详细的文本描述对齐,以确保精确且富含上下文的表示。第三,引入了 1000 万个困难的细粒度负样本,以提高模型区分微妙语义差异的能力。针对这些数据,相应的训练方法也经过了精心设计。大量实验表明,FG-CLIP 在细粒度理解、开放词汇目标检测、图像-文本检索和一般多模态基准测试等各种下游任务中,优于原始 CLIP 和其他最先进的方法。这些结果突出显示了 FG-CLIP 在捕获细粒度图像细节和提升整体模型性能方面的有效性。相关的数据、代码和模型可在 https://github.com/360CVGroup/FG-CLIP 获取。
查看 arXiv 页面查看 PDF

评论

David LeonDavid Leon
论文作者
论文提交者

FG-CLIP是一种新一代跨模态模型,能够对文本图像对齐和检索进行细粒度判别。