Spatial-MLLM:提升MLLM在基于视觉的空间智能方面的能力

发表
Fangfu LiuFangfu Liu 提交
作者: Diankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan

摘要

多模态大型语言模型(MLLMs)的最新进展显著提升了在2D视觉任务上的性能。然而,提高其空间智能仍然是一个挑战。现有的3D MLLMs总是依赖额外的3D或2.5D数据来整合空间感知能力,这限制了它们在仅有2D输入(如图像或视频)场景中的效用。在本文中,我们提出了Spatial-MLLM,一个全新的框架,用于仅基于2D观测进行视觉空间推理。与依赖于为语义理解优化的基于CLIP的视觉编码器的传统视频MLLMs不同,我们的关键见解是释放前馈视觉几何基础模型中强大的结构先验。具体来说,我们提出了一种双编码器架构:一个预训练的2D视觉编码器用于提取语义特征,以及一个空间编码器——从视觉几何模型的骨干网络初始化——用于提取3D结构特征。然后,一个连接器将这两种特征整合到统一的视觉标记中,以增强空间理解。此外,我们在推理时提出了一种空间感知帧采样策略,该策略选择视频序列中空间信息丰富的帧,确保即使在有限的标记长度下,模型也能专注于对空间推理至关重要的帧。除了架构改进之外,我们构建了Spatial-MLLM-120k数据集,并使用有监督微调(SFT)和GRPO在该数据集上训练模型。在各种真实世界数据集上的广泛实验表明,我们的Spatial-MLLM在广泛的基于视觉的空间理解和推理任务中实现了最先进的性能。项目页面:https://diankun-wu.github.io/Spatial-MLLM/
查看 arXiv 页面查看 PDF

评论

Fangfu LiuFangfu Liu
论文提交者

代码:https://github.com/diankun-wu/Spatial-MLLM

Francesco LaitiFrancesco Laiti

感谢你的工作!我很好奇你们使用的硬件配置,特别是在推理方面。能否分享一下用于重现你们的推理设置(使用 16 帧输入)所需的 GPU 类型(例如 A100、RTX 6000 等)以及内存需求?我只是想在本地尝试之前检查一下可行性。非常感谢您的任何指导!