⏶8
Multi-SpatialMLLM:多模态大语言模型的多帧空间理解
发表
由
Runsen Xu 提交

作者: Runsen Xu, Weiyao Wang, Hao Tang, Xingyu Chen, Xiaodong Wang, Fu-Jen Chu, Dahua Lin, Matt Feiszli, Kevin J. Liang
摘要
多模态大型语言模型 (MLLMs) 在视觉任务方面取得了快速进展,但其空间理解仍限于单张图像,使其不适用于需要多帧推理的机器人和其他现实世界应用。在本文中,我们提出了一个框架,通过整合深度感知、视觉对应和动态感知,赋予 MLLMs 强大的多帧空间理解能力。我们方法的核心是 MultiSPA 数据集,这是一个新颖的大规模集合,包含超过 2700 万个样本,涵盖了各种 3D 和 4D 场景。除了 MultiSPA,我们还引入了一个综合基准测试,在统一指标下测试广泛的空间任务。我们得到的模型 Multi-SpatialMLLM 在基线模型和专有系统上取得了显著提升,展示了可扩展、可泛化的多帧推理能力。我们进一步观察到多任务益处以及在挑战性场景中涌现能力的早期迹象,并展示了我们的模型如何可以作为机器人领域的多帧奖励标注器。
我们为一个用于多帧空间理解的 MLLM、数据集和基准测试做出了贡献。