⏶10
训练X射线视觉:基于多摄像头视频的无模态分割、无模态内容补全与视角不变物体表示
发表
由
Amar Saini 提交

作者:
Alexander Moore,
Amar Saini, Kylie Cancilla, Doug Poland, Carmen Carrano

摘要
非模态分割和非模态内容补全需要使用对象先验来估计复杂场景中被遮挡对象的掩膜和特征。迄今为止,还没有任何数据为对象上下文提供额外的维度:即多台摄像机共享场景视图的可能性。我们引入了 MOVi-MC-AC:多对象视频多摄像机与非模态内容数据集,这是迄今为止最大的非模态分割数据集和第一个非模态内容数据集。通用家用物品的杂乱场景在多摄像机视频中进行模拟。MOVi-MC-AC 通过为计算机视觉深度学习领域提供两项新贡献,为不断增长的对象检测、跟踪和分割文献做出了贡献。在合成视频和真实世界视频中,对象可以在各种独特的摄像机视角之间识别和跟踪的多摄像机 (MC) 设置很少见。我们通过为单个场景中具有独特特征和运动模式的帧和多台摄像机之间的检测和分割提供一致的对象 ID,为合成视频引入了新的复杂性。非模态内容 (AC) 是一项重建任务,模型通过遮挡预测目标对象的外观。在非模态分割文献中,一些数据集已经发布了带有非模态检测、跟踪和分割标签的数据。虽然其他方法依赖于缓慢的剪切-粘贴方案来生成非模态内容伪标签,但它们没有考虑模态掩膜中存在的自然遮挡。MOVi-MC-AC 为约 580 万个对象实例提供了标签,在非模态数据集文献中创下了新高,同时也是第一个提供真实非模态内容的数据集。完整数据集可在 https://huggingface.co/datasets/Amar-S/MOVi-MC-AC 获取。
MOVi-MC-AC 是首个包含遮挡对象非模态内容真实标注的数据集,拥有约580万个实例,在非模态数据集中创下新高!