⏶1
面向点云学习,追求更多样化和更具挑战性的预训练:通过解耦视图进行自监督交叉重建
发表
由
Xiangdong Zhang 提交
作者: Xiangdong Zhang, Shaofeng Zhang, Junchi Yan
摘要
点云学习,尤其是在没有手动标签的自监督方式下,由于其在广泛应用中的潜在效用,在视觉和学习社区都受到了越来越多的关注。大多数现有的点云自监督学习生成方法都侧重于在单一视图内从可见点恢复被遮蔽的点。我们认识到,双视图预训练范式本身就引入了更大的多样性和方差,因此可能能够实现更具挑战性和信息量的预训练。受此启发,我们探索了双视图学习在该领域的潜力。在本文中,我们提出了Point-PQAE,一种交叉重建生成范式,它首先生成两个解耦的点云/视图,然后从一个重建另一个。为了实现这一目标,我们首次开发了一种用于点云视图生成的裁剪机制,并进一步提出了一种新颖的位置编码来表示两个解耦视图之间的3D相对位置。与自重建相比,交叉重建显著增加了预训练的难度,这使得我们的方法在3D自监督学习中能够超越先前单模态自重建方法。具体而言,在ScanObjectNN的三个变体上,使用Mlp-Linear评估协议,其性能比自重建基线(Point-MAE)分别提高了6.5%、7.0%和6.7%。代码可在https://github.com/aHapBean/Point-PQAE获取。

点云学习,尤其是在没有手动标签的自监督方式下,由于其在广泛应用中的潜在效用,在视觉和学习社区中受到了越来越多的关注。大多数现有的用于点云自监督学习的生成方法都集中在从单视图中的可见点恢复被遮蔽的点。认识到双视图预训练范式固有的更多样性和方差,它可能因此实现更具挑战性且信息量更大的预训练。受此启发,我们探索了双视图学习在该领域的潜力。在本文中,我们提出了 Point-PQAE,一种交叉重建生成范式,它首先生成两个解耦的点云/视图,然后从一个重建另一个。为了实现这一目标,我们首次开发了一种用于点云视图生成的裁剪机制,并进一步提出了一种新颖的位置编码来表示两个解耦视图之间的 3D 相对位置。与自重建相比,交叉重建显著增加了预训练的难度,这使得我们的方法在 3D 自监督学习中能够超越先前单模态自重建方法。具体来说,在 ScanObjectNN 的三个变体上,使用 Mlp-Linear 评估协议,其性能比自重建基线(Point-MAE)分别提高了 6.5%、7.0% 和 6.7%。代码可在 https://github.com/aHapBean/Point-PQAE 获取。