⏶43
DeCLIP:解耦学习用于开放词表密集感知
发表
由
Junjie Wang 提交
作者:
Junjie Wang,
Bin Chen, Yulin Li,
Bin Kang, Yichi Chen,
Zhuotao Tian
摘要
密集视觉预测任务一直受限于对预定义类别的依赖,这限制了它们在视觉概念无界的现实世界场景中的应用。尽管 CLIP 等视觉-语言模型(VLM)在开放词汇任务中已展现出潜力,但它们直接应用于密集预测时,由于局部特征表示的局限性,通常会导致次优性能。在本文中,我们观察到 CLIP 的图像 token 难以有效地聚合来自空间或语义相关区域的信息,导致特征缺乏局部辨别能力和空间一致性。为了解决这个问题,我们提出了 DeCLIP,这是一个新颖的框架,通过解耦自注意力模块来增强 CLIP,分别获得“内容”和“上下文”特征。“内容”特征与图像裁剪表示对齐,以提高局部辨别能力;而“上下文”特征在 DINO 等视觉基础模型的指导下,学习保留空间相关性。大量实验表明,DeCLIP 在多个开放词汇密集预测任务(包括目标检测和语义分割)上显著优于现有方法。代码可在 magenta{https://github.com/xiaomoguhz/DeCLIP} 获取。
GitHub:https://github.com/xiaomoguhz/DeCLIP