DeCLIP:解耦学习用于开放词表密集感知

发表
Junjie WangJunjie Wang 提交
作者: Junjie WangJunjie Wang, Bin ChenBin Chen, Yulin Li, bin kangBin Kang, Yichi Chen, zt tianZhuotao Tian

摘要

密集视觉预测任务一直受限于对预定义类别的依赖,这限制了它们在视觉概念无界的现实世界场景中的应用。尽管 CLIP 等视觉-语言模型(VLM)在开放词汇任务中已展现出潜力,但它们直接应用于密集预测时,由于局部特征表示的局限性,通常会导致次优性能。在本文中,我们观察到 CLIP 的图像 token 难以有效地聚合来自空间或语义相关区域的信息,导致特征缺乏局部辨别能力和空间一致性。为了解决这个问题,我们提出了 DeCLIP,这是一个新颖的框架,通过解耦自注意力模块来增强 CLIP,分别获得“内容”和“上下文”特征。“内容”特征与图像裁剪表示对齐,以提高局部辨别能力;而“上下文”特征在 DINO 等视觉基础模型的指导下,学习保留空间相关性。大量实验表明,DeCLIP 在多个开放词汇密集预测任务(包括目标检测和语义分割)上显著优于现有方法。代码可在 magenta{https://github.com/xiaomoguhz/DeCLIP} 获取。
查看 arXiv 页面查看 PDF

评论

Junjie WangJunjie Wang
论文作者
论文提交者

GitHub:https://github.com/xiaomoguhz/DeCLIP

YJYJ

随时随地学习的音频概述:https://youtu.be/j2FH4odMM-s