⏶1
用于自监督单目深度估计的混合粒度特征聚合与粗到细语言引导
发表
由
Zhang 提交
作者: Wenyao Zhang, Hongsi Liu, Bohan Li, Jiawei He, Zekun Qi, Yunnan Wang, Shengyang Zhao, Xinqiang Yu, Wenjun Zeng, Xin Jin
摘要
AI 生成总结
混合深度框架整合了CLIP和DINO,并通过语言引导来增强自监督单目深度估计,解决了语义和空间特征不匹配的问题。当前,单目深度估计(MDE)的自监督方法在语义-空间知识提取不足的情况下,面临性能瓶颈。为了解决这一挑战,我们提出了Hybrid-depth,一个新颖的框架,系统地整合了基础模型(例如CLIP和DINO)来提取视觉先验知识并获取足够的上下文信息用于MDE。我们的方法引入了一个粗到精的渐进式学习框架:1)首先,我们在对比语言指导下聚合来自CLIP(全局语义)和DINO(局部空间细节)的多粒度特征。我们设计了一个比较近-远图像块的代理任务,以使用文本提示强制进行深度感知特征对齐;2)接下来,在粗略特征的基础上,我们整合相机姿态信息和像素级语言对齐,以优化深度预测。该模块可作为即插即用深度编码器,无缝集成到现有的自监督MDE管道(例如Monodepth2、ManyDepth)中,从而增强连续深度估计。通过语言指导聚合CLIP的语义上下文和DINO的空间细节,我们的方法有效地解决了特征粒度不匹配的问题。在KITTI基准上的广泛实验表明,我们的方法在所有指标上都显著优于SOTA方法,并且确实有利于BEV感知等下游任务。代码可在https://github.com/Zhangwenyao1/Hybrid-depth获取。
论文:[https://arxiv.org/pdf/2510.09320]
代码:[https://github.com/Zhangwenyao1/Hybrid-depth]