⏶66
Spatial-MLLM:提升MLLM在基于视觉的空间智能方面的能力
发表
由
Fangfu Liu 提交
作者: Diankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan
摘要
多模态大型语言模型(MLLMs)的最新进展显著提升了在2D视觉任务上的性能。然而,提高其空间智能仍然是一个挑战。现有的3D MLLMs总是依赖额外的3D或2.5D数据来整合空间感知能力,这限制了它们在仅有2D输入(如图像或视频)场景中的效用。在本文中,我们提出了Spatial-MLLM,一个全新的框架,用于仅基于2D观测进行视觉空间推理。与依赖于为语义理解优化的基于CLIP的视觉编码器的传统视频MLLMs不同,我们的关键见解是释放前馈视觉几何基础模型中强大的结构先验。具体来说,我们提出了一种双编码器架构:一个预训练的2D视觉编码器用于提取语义特征,以及一个空间编码器——从视觉几何模型的骨干网络初始化——用于提取3D结构特征。然后,一个连接器将这两种特征整合到统一的视觉标记中,以增强空间理解。此外,我们在推理时提出了一种空间感知帧采样策略,该策略选择视频序列中空间信息丰富的帧,确保即使在有限的标记长度下,模型也能专注于对空间推理至关重要的帧。除了架构改进之外,我们构建了Spatial-MLLM-120k数据集,并使用有监督微调(SFT)和GRPO在该数据集上训练模型。在各种真实世界数据集上的广泛实验表明,我们的Spatial-MLLM在广泛的基于视觉的空间理解和推理任务中实现了最先进的性能。项目页面:https://diankun-wu.github.io/Spatial-MLLM/。
代码:https://github.com/diankun-wu/Spatial-MLLM