掩蔽场景建模:缩小 3D 场景理解中监督学习和自监督学习之间的差距

04月09日发表
04月10日由 Pedro HermosillaPedro Hermosilla 提交
作者: Pedro HermosillaPedro Hermosilla, Christian Stippel, Leon SickLeon Sick

摘要

自监督学习通过使在大型未注释数据集上训练的模型能够提供通用的即用型特征,从而以类似于使用标签训练的模型的方式执行,从而改变了 2D 计算机视觉。 然而,在 3D 场景理解中,自监督方法通常仅用作特定于任务的微调的权重初始化步骤,限制了它们用于通用特征提取的效用。本文通过提出专门设计的鲁棒评估协议来解决这一缺点,该协议旨在评估用于 3D 场景理解的自监督特征的质量。我们的协议使用分层模型的多分辨率特征采样来创建丰富的点级表示,这些表示捕获模型的语义能力,因此适用于线性探测和最近邻方法进行评估。此外,我们引入了第一个自监督模型,当仅在线性探测设置中使用即用型特征时,该模型的性能与监督模型相似。特别是,我们的模型在 3D 中本地训练,采用了一种新颖的自监督方法,该方法基于掩蔽场景建模目标,该目标以自下而上的方式重建掩蔽补丁的深层特征,并且专门针对分层 3D 模型量身定制。我们的实验不仅证明了我们的方法实现了与监督模型相当的性能,而且还大大超过了现有的自监督方法。模型和训练代码可以在我们的 Github 存储库 (https://github.com/phermosilla/msm) 中找到。
查看 arXiv 页面查看 PDF

评论

Pedro HermosillaPedro Hermosilla
论文作者
论文提交者

您是否厌倦了将 2D 特征投影到 3D 中以解决一般问题?在本文中,我们提出了一种自监督模型,该模型可以在 3D 中原生生成语义现成特征!#CVPR2025

项目:https://phermosilla.github.io/msm/

Arxiv:https://arxiv.org/abs/2504.06719

Github:https://github.com/phermosilla/msm