⏶15
SAM4D:在相机和激光雷达流中分割一切
发表
由
Song Wang 提交
作者: Jianyun Xu,
Song Wang, Ziqian Ni, Chunyong Hu, Sheng Yang, Jianke Zhu, Qiang Li
摘要
我们提出了SAM4D,一个多模态和时间性基础模型,旨在实现跨摄像头和激光雷达流的可提示分割。我们引入了统一多模态位置编码(UMPE)以对齐摄像头和激光雷达在共享3D空间中的特征,从而实现无缝的跨模态提示和交互。此外,我们提出了一种运动感知跨模态记忆注意力(MCMA)机制,该机制利用自我运动补偿来增强时间一致性和长距离特征检索,确保在动态变化的自动驾驶场景中实现稳健的分割。为了避免标注瓶颈,我们开发了一个多模态自动化数据引擎,它协同VFM驱动的视频掩码、时空4D重建和跨模态掩码融合。该框架生成摄像头-激光雷达对齐的伪标签的速度比人工标注快几个数量级,同时在点云表示中保留了VFM衍生的语义保真度。我们在构建的Waymo-4DSeg上进行了大量的实验,这些实验证明了所提出的SAM4D强大的跨模态分割能力和在数据标注方面的巨大潜力。
已由ICCV2025接收,项目主页:https://SAM4D-Project.github.io