⏶4
VLM-3R:基于指令对齐三维重建增强的视觉-语言模型
发表
由
Niels Rogge 提交

作者: Zhiwen Fan, Jian Zhang, Renjie Li, Junge Zhang, Runjin Chen, Hezhen Hu, Kevin Wang,
Huaizhi Qu, Dilin Wang, Zhicheng Yan, Hongyu Xu, Justin Theiss, Tianlong Chen, Jiachen Li,
Zhengzhong Tu, Zhangyang Wang, Rakesh Ranjan
摘要
针对 2D 图像和视频的大规模多模态模型(LMMs)的快速发展,推动了将这些模型扩展到理解 3D 场景,旨在实现类人视觉空间智能。然而,实现可与人类能力媲美的深度空间理解,在模型编码和数据采集方面带来了巨大挑战。现有方法经常依赖于外部深度传感器进行几何捕捉,或利用现成算法预构建 3D 地图,从而限制了其可扩展性,尤其是在普遍存在的单目视频输入和对时间敏感的应用方面。在本文中,我们引入了 VLM-3R,这是一个用于视觉-语言模型(VLMs)的统一框架,该框架整合了 3D 重建指令微调。VLM-3R 通过采用几何编码器处理单目视频帧,以提取代表空间理解的隐式 3D token。凭借我们的空间-视觉-视角融合以及超过 20 万精心策划的 3D 重建指令微调问答对(QA),VLM-3R 有效地将真实世界的空间上下文与语言指令对齐。这使得单目 3D 空间辅助和具身推理成为可能。为了促进对时序推理的评估,我们提出了视觉-空间-时序智能基准,该基准包含涵盖五个不同任务的超过 13.86 万问答对(QA),这些任务专注于演变中的空间关系。大量实验表明,我们的模型 VLM-3R 不仅促进了鲁棒的视觉空间推理,而且能够理解时序 3D 上下文变化,在准确性和可扩展性两方面都表现出色。
代码: https://github.com/VITA-Group/VLM-3R
模型: https://huggingface.co/Journey9ni/vlm-3r-llava-qwen2-lora