⏶15

SAM4D：在相机和激光雷达流中分割一切

06月26日发表

06月27日由 Song Wang 提交

作者: Jianyun Xu, Song Wang, Ziqian Ni, Chunyong Hu, Sheng Yang, Jianke Zhu, Qiang Li

摘要

我们提出了SAM4D，一个多模态和时间性基础模型，旨在实现跨摄像头和激光雷达流的可提示分割。我们引入了统一多模态位置编码（UMPE）以对齐摄像头和激光雷达在共享3D空间中的特征，从而实现无缝的跨模态提示和交互。此外，我们提出了一种运动感知跨模态记忆注意力（MCMA）机制，该机制利用自我运动补偿来增强时间一致性和长距离特征检索，确保在动态变化的自动驾驶场景中实现稳健的分割。为了避免标注瓶颈，我们开发了一个多模态自动化数据引擎，它协同VFM驱动的视频掩码、时空4D重建和跨模态掩码融合。该框架生成摄像头-激光雷达对齐的伪标签的速度比人工标注快几个数量级，同时在点云表示中保留了VFM衍生的语义保真度。我们在构建的Waymo-4DSeg上进行了大量的实验，这些实验证明了所提出的SAM4D强大的跨模态分割能力和在数据标注方面的巨大潜力。

查看 arXiv 页面查看 PDF

Song Wang

论文作者

论文提交者

已由ICCV2025接收，项目主页：https://SAM4D-Project.github.io

SAM4D：在相机和激光雷达流中分割一切

摘要

评论