⏶3
TR2M:结合语言描述和尺度导向对比,将单目相对深度转换为度量深度
发表
由
Beilei Cui 提交

作者: Beilei Cui, Yiming Huang, Long Bai, Hongliang Ren
摘要
这项工作提出了一个可泛化的框架,用于将相对深度转换为度量深度。当前的单目深度估计方法主要分为度量深度估计(MMDE)和相对深度估计(MRDE)。MMDE 以度量尺度估计深度,但通常仅限于特定领域。MRDE 在不同领域泛化良好,但其尺度不确定,这阻碍了下游应用。为此,我们旨在构建一个框架来解决尺度不确定性并将相对深度转换为度量深度。以前的方法使用语言作为输入,并估计两个因子进行重缩放。我们的方法 TR2M 利用文本描述和图像作为输入,并估计两个重缩放图,以在像素级别将相对深度转换为度量深度。来自两种模态的特征通过一个跨模态注意力模块进行融合,以更好地捕获尺度信息。设计了一种策略来构建和过滤置信的伪度量深度,以实现更全面的监督。我们还开发了面向尺度的对比学习,以利用深度分布作为指导,强制模型学习与尺度分布对齐的内在知识。TR2M 仅利用少量可训练参数在各种领域的数据集上进行训练,实验不仅证明了 TR2M 在已见数据集上的出色性能,还在五个未见数据集上展现了卓越的零样本能力。我们展示了在语言辅助下,逐像素地将相对深度转换为度量深度的巨大潜力。(代码可在以下网址获取:https://github.com/BeileiCui/TR2M)
TR2M