⏶66

Spatial-MLLM：提升MLLM在基于视觉的空间智能方面的能力

05月29日发表

05月30日由 Fangfu Liu 提交

作者: Diankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan

摘要

多模态大型语言模型（MLLMs）的最新进展显著提升了在2D视觉任务上的性能。然而，提高其空间智能仍然是一个挑战。现有的3D MLLMs总是依赖额外的3D或2.5D数据来整合空间感知能力，这限制了它们在仅有2D输入（如图像或视频）场景中的效用。在本文中，我们提出了Spatial-MLLM，一个全新的框架，用于仅基于2D观测进行视觉空间推理。与依赖于为语义理解优化的基于CLIP的视觉编码器的传统视频MLLMs不同，我们的关键见解是释放前馈视觉几何基础模型中强大的结构先验。具体来说，我们提出了一种双编码器架构：一个预训练的2D视觉编码器用于提取语义特征，以及一个空间编码器——从视觉几何模型的骨干网络初始化——用于提取3D结构特征。然后，一个连接器将这两种特征整合到统一的视觉标记中，以增强空间理解。此外，我们在推理时提出了一种空间感知帧采样策略，该策略选择视频序列中空间信息丰富的帧，确保即使在有限的标记长度下，模型也能专注于对空间推理至关重要的帧。除了架构改进之外，我们构建了Spatial-MLLM-120k数据集，并使用有监督微调（SFT）和GRPO在该数据集上训练模型。在各种真实世界数据集上的广泛实验表明，我们的Spatial-MLLM在广泛的基于视觉的空间理解和推理任务中实现了最先进的性能。项目页面：https://diankun-wu.github.io/Spatial-MLLM/。

查看 arXiv 页面查看 PDF

Fangfu Liu

论文提交者

代码：https://github.com/diankun-wu/Spatial-MLLM

Francesco Laiti

感谢你的工作！我很好奇你们使用的硬件配置，特别是在推理方面。能否分享一下用于重现你们的推理设置（使用 16 帧输入）所需的 GPU 类型（例如 A100、RTX 6000 等）以及内存需求？我只是想在本地尝试之前检查一下可行性。非常感谢您的任何指导！

Spatial-MLLM：提升MLLM在基于视觉的空间智能方面的能力

摘要

评论