⏶5
un^2CLIP:通过反转 unCLIP 提升 CLIP 的视觉细节捕捉能力
发表
由
Yinqi Li 提交
作者:
Yinqi Li, Jiahe Zhao, Hong Chang, Ruibing Hou, Shiguang Shan, Xilin Chen
摘要
对比语言-图像预训练(CLIP)已成为基础模型,并已被应用于各种视觉和多模态任务。然而,最近的研究表明,CLIP在区分图像中的细节差异方面表现不足,并且在密集预测和以视觉为中心的多模态任务上表现不佳。因此,本工作致力于改进现有CLIP模型,旨在尽可能多地捕捉图像中的视觉细节。我们发现一种特定类型的生成模型unCLIP为实现我们的目标提供了一个合适的框架。具体来说,unCLIP训练一个以CLIP图像嵌入为条件的图像生成器。换句话说,它反转了CLIP图像编码器。与CLIP等判别模型相比,生成模型更擅长捕捉图像细节,因为它们被训练来学习图像的数据分布。此外,unCLIP的条件输入空间与CLIP原始的图像-文本嵌入空间对齐。因此,我们提出反转unCLIP(命名为un^2CLIP)以改进CLIP模型。这样,改进后的图像编码器既能获得unCLIP的视觉细节捕捉能力,同时又保留了其与原始文本编码器的对齐。我们在CLIP已应用的各种任务中评估了我们改进的CLIP,包括具有挑战性的MMVP-VLM基准测试、密集预测开放词汇分割任务以及多模态大型语言模型任务。实验表明,un^2CLIP显著改进了原始CLIP和之前的CLIP改进方法。代码和模型将发布在 https://github.com/LiYinqi/un2CLIP。
一项通过反转unCLIP生成模型(该模型反转了CLIP视觉编码器)来提升CLIP视觉细节捕获能力的工作。