面向以自我为中心的图像-语言模型多视图场景的空间推理

发表
Mohammad AkbariMohammad Akbari 提交
作者: Mohsen GholamiMohsen Gholami, Ahmad RezaeiAhmad Rezaei, Zhou Weimin, Yong Zhang, Mohammad AkbariMohammad Akbari

摘要

AI 生成总结
Ego3D-Bench 在以自我为中心、多视角的户外数据上评估视觉语言模型(VLM),揭示了性能差距;Ego3D-VLM 则通过认知地图生成增强了 3D 空间推理能力。
理解三维空间关系仍然是当前视觉语言模型(VLMs)的一大局限性。以往的研究通过创建基于单张图像或室内视频的空间问答(QA)数据集来解决这个问题。然而,现实世界中的具身人工智能代理,如机器人和自动驾驶汽车,通常依赖于以自身为中心的、多视角的观察。为此,我们引入了 Ego3D-Bench,一个旨在评估 VLMs 在以自身为中心的、多视角室外数据下的空间推理能力的新基准。Ego3D-Bench 包含超过 8,600 个 QA 对,由人类标注员深度参与创建,以确保质量和多样性。我们对 16 个最先进的 VLM 进行了基准测试,包括 GPT-4o、Gemini1.5-Pro、InternVL3 和 Qwen2.5-VL。我们的结果显示,人类得分与 VLM 性能之间存在明显的差距,突显出当前的 VLM 在空间理解方面仍未达到人类水平。为了弥合这一差距,我们提出了 Ego3D-VLM,一个用于增强 VLM 三维空间推理能力的后训练框架。Ego3D-VLM 基于估计的全局三维坐标生成认知地图,在多项选择 QA 上平均提高了 12%,在绝对距离估计上平均提高了 56%。Ego3D-VLM 模块化设计,可以与任何现有的 VLM 集成。总而言之,Ego3D-Bench 和 Ego3D-VLM 为在现实世界的、多视角环境中的具身人工智能代理迈向人类水平的空间理解提供了宝贵的工具。
查看 arXiv 页面查看 PDF

评论

Mohammad AkbariMohammad Akbari
论文作者
论文提交者

本文的要点:
📊 Ego3D-Bench:一个包含 8,600 多个经过人工验证的问答对的基准测试,用于评估视听模型在以自我为中心、多视角的户外环境中的表现。
🧠 Ego3D-VLM:一个训练后框架,它从全局 3D 坐标构建认知地图,在问答准确率上提高了 12%,在距离估计上提高了 56%。
🚀 影响:Ego3D-Bench 和 Ego3D-VLM 一起,使视听模型在现实世界环境中更接近人类水平的 3D 空间理解能力。