⏶15
解耦全局-局部对齐用于提升组合理解
发表
由
Yang 提交

作者:
Xiaoxing Hu,
Kaicheng Yang, Jun Wang,
Haoran Xu, Ziyong Feng, Yupei Wang



摘要
对比语言-图像预训练(CLIP)通过对齐图像和文本模态,在多个下游任务上取得了成功。然而,全局对比学习的性质限制了CLIP理解组合概念(如关系和属性)的能力。尽管最近的研究采用全局硬负样本来改进组合理解,但这些方法通过在嵌入空间中强制拉开文本负样本与图像的距离,显著损害了模型固有的通用能力。为了克服这一限制,我们引入了一种解耦全局-局部对齐(DeGLA)框架,该框架在提高组合理解的同时,大幅缓解了通用能力的损失。为了最大程度地保留模型固有的能力,我们在全局对齐过程中融入了自蒸馏机制,将可学习的图像-文本编码器与源自指数移动平均的冻结教师模型对齐。在自蒸馏的约束下,它有效地减轻了在微调过程中预训练知识的灾难性遗忘。为了提高组合理解能力,我们首先利用大型语言模型(LLMs)的上下文学习能力,构建了五种类型约200万条高质量的负面描述。随后,我们提出了图像导向对比(IGC)损失和文本导向对比(TGC)损失,以增强视觉-语言的组合性。大量的实验结果证明了DeGLA框架的有效性。与先前的最先进方法相比,DeGLA在VALSE、SugarCrepe和ARO基准测试上平均提高了3.5%。同时,它在十一个数据集上的零样本分类任务中,平均性能提高了13.0%。我们的代码将发布在 https://github.com/xiaoxing2001/DeGLA
对比语言-图像预训练(CLIP)通过对齐图像和文本模态,在多个下游任务上取得了成功。然而,全局对比学习的性质限制了 CLIP 理解组合概念(如关系和属性)的能力。尽管最近的研究采用全局难负样本来改善组合理解,但这些方法通过在嵌入空间中强制拉远文本负样本与图像的距离,显著损害了模型固有的通用能力。为了克服这一限制,我们引入了一种解耦的全局-局部对齐(DeGLA)框架,该框架在提高组合理解的同时,显著减少了通用能力的损失。为了优化模型固有能力的保留,我们在全局对齐过程中融入了自蒸馏机制,将可学习的图像-文本编码器与一个从指数移动平均派生出的冻结教师模型对齐。在自蒸馏的约束下,它有效减轻了微调过程中预训练知识的灾难性遗忘。为了提高组合理解,我们首先利用大语言模型(LLMs)的上下文学习能力,构建了约200万个高质量的负向字幕,涵盖五种类型。随后,我们提出了图像接地对比(IGC)损失和文本接地对比(TGC)损失,以增强视觉-语言的组合性。广泛的实验结果证明了 DeGLA 框架的有效性。与先前的最先进方法相比,DeGLA 在 VALSE、SugarCrepe 和 ARO 基准测试中平均提高了 3.5%。同时,它在十一个数据集上的零样本分类任务中获得了平均 13.0% 的性能提升。我们的代码将发布在 https://github.com/xiaoxing2001/DeGLA。