⏶8
FG-CLIP 2:一个双语细粒度视觉语言对齐模型
发表
由
David Leon 提交

作者: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Ji Ao, Dawei Leng, Yuhui Yin
摘要
AI 生成总结
FG-CLIP 2是一个双语视觉-语言模型,通过丰富的监督和新的TIC损失来增强英语和中文之间的细粒度对齐,在多个数据集和任务上取得了最先进的性能。细粒度的视觉-语言理解需要视觉内容与语言描述之间的精确对齐,而目前模型在这方面的能力仍然有限,特别是在非英语环境中。虽然像CLIP这样的模型在全局对齐方面表现良好,但它们通常难以捕捉物体属性、空间关系和语言表达中的细粒度细节,并且对双语理解的支持有限。为了解决这些挑战,我们引入了FG-CLIP 2,这是一个双语视觉-语言模型,旨在促进英语和中文的细粒度对齐。我们的方法利用了丰富的细粒度监督,包括区域-文本匹配和长标题建模,以及多个判别性目标。我们还引入了文本内部模态对比(TIC)损失,以更好地区分语义相似的标题。FG-CLIP 2在精心策划的大规模英语和中文数据混合集上进行训练,实现了强大的双语性能。为了进行严格的评估,我们提出了一个新的中文多模态理解基准,该基准包含长标题检索和边界框分类。在8个任务的29个数据集上的广泛实验表明,FG-CLIP 2优于现有方法,在两种语言中均取得了最先进的结果。我们发布了模型、代码和基准,以促进未来在双语细粒度对齐方面的研究。
FG-CLIP 系列作为新一代全创新文本-图像跨模态模型,在细粒度理解方面展现出卓越的性能。作为该系列的最新模型,FG-CLIP 2 同时支持中文和英文。在 29 个数据集和 8 大类任务中,其性能超越了 SigLIP 2 和 MetaCLIP 2 等强基线模型,在中英文两类任务上均达到了当前最先进(state-of-the-art)的性能。