⏶43

DeCLIP：解耦学习用于开放词表密集感知

05月07日发表

05月15日由 Junjie Wang 提交

作者: Junjie Wang, Bin Chen, Yulin Li, Bin Kang, Yichi Chen, zt tian Zhuotao Tian

摘要

密集视觉预测任务一直受限于对预定义类别的依赖，这限制了它们在视觉概念无界的现实世界场景中的应用。尽管 CLIP 等视觉-语言模型（VLM）在开放词汇任务中已展现出潜力，但它们直接应用于密集预测时，由于局部特征表示的局限性，通常会导致次优性能。在本文中，我们观察到 CLIP 的图像 token 难以有效地聚合来自空间或语义相关区域的信息，导致特征缺乏局部辨别能力和空间一致性。为了解决这个问题，我们提出了 DeCLIP，这是一个新颖的框架，通过解耦自注意力模块来增强 CLIP，分别获得“内容”和“上下文”特征。“内容”特征与图像裁剪表示对齐，以提高局部辨别能力；而“上下文”特征在 DINO 等视觉基础模型的指导下，学习保留空间相关性。大量实验表明，DeCLIP 在多个开放词汇密集预测任务（包括目标检测和语义分割）上显著优于现有方法。代码可在 magenta{https://github.com/xiaomoguhz/DeCLIP} 获取。

查看 arXiv 页面查看 PDF

Junjie Wang

论文作者

论文提交者

GitHub：https://github.com/xiaomoguhz/DeCLIP

随时随地学习的音频概述：https://youtu.be/j2FH4odMM-s

DeCLIP：解耦学习用于开放词表密集感知

摘要

评论