SAM4D:在相机和激光雷达流中分割一切

发表
Song WangSong Wang 提交
作者: Jianyun Xu, Song WangSong Wang, Ziqian Ni, Chunyong Hu, Sheng Yang, Jianke Zhu, Qiang Li

摘要

我们提出了SAM4D,一个多模态和时间性基础模型,旨在实现跨摄像头和激光雷达流的可提示分割。我们引入了统一多模态位置编码(UMPE)以对齐摄像头和激光雷达在共享3D空间中的特征,从而实现无缝的跨模态提示和交互。此外,我们提出了一种运动感知跨模态记忆注意力(MCMA)机制,该机制利用自我运动补偿来增强时间一致性和长距离特征检索,确保在动态变化的自动驾驶场景中实现稳健的分割。为了避免标注瓶颈,我们开发了一个多模态自动化数据引擎,它协同VFM驱动的视频掩码、时空4D重建和跨模态掩码融合。该框架生成摄像头-激光雷达对齐的伪标签的速度比人工标注快几个数量级,同时在点云表示中保留了VFM衍生的语义保真度。我们在构建的Waymo-4DSeg上进行了大量的实验,这些实验证明了所提出的SAM4D强大的跨模态分割能力和在数据标注方面的巨大潜力。
查看 arXiv 页面查看 PDF

评论

Song WangSong Wang
论文作者
论文提交者

已由ICCV2025接收,项目主页:https://SAM4D-Project.github.io