3D CoCa:对比学习器是 3D 图像描述器

04月13日发表
04月15日由 Zeyu ZhangZeyu Zhang 提交
作者: Ting Huang, Zeyu ZhangZeyu Zhang, Yemin Wang, Hao Tang

摘要

3D图像 captioning 旨在用自然语言描述 3D 场景的内容,但由于点云固有的稀疏性以及现有方法中跨模态对齐的不足,仍然面临巨大挑战。为了应对这些挑战,我们提出了 3D CoCa,这是一个新颖的统一框架,它在单一架构中无缝结合了对比视觉-语言学习与 3D caption 生成。我们的方法利用冻结的 CLIP 视觉-语言骨干网络来提供丰富的语义先验知识,一个空间感知 3D 场景编码器来捕捉几何上下文,以及一个多模态解码器来生成描述性 caption。与先前依赖显式对象提议的两阶段方法不同,3D CoCa 在共享特征空间中联合优化对比学习和 caption 目标,从而消除了对外部检测器或手工设计提议的需求。这种联合训练模式通过对齐 3D 和文本表征,实现了更强的空间推理和更丰富的语义基础。在 ScanRefer 和 Nr3D 基准测试上的大量实验表明,在 0.5IoU 的 CIDEr 指标下,3D CoCa 显著超越了当前最先进的方法,分别提升了 10.2% 和 5.76%。代码将在 https://github.com/AIGeeksGroup/3DCoCa 公开。
查看 arXiv 页面查看 PDF

评论

Zeyu ZhangZeyu Zhang
论文作者
论文提交者

https://github.com/AIGeeksGroup/3DCoCa/