VLM4D:迈向视觉语言模型中的时空感知

发表
Shijie ZhouShijie Zhou 提交
作者: Shijie ZhouShijie Zhou, Alexander Vilesov, Xuehai He, Ziyu Wan, Shuwang Zhang, Aditya Nagachandra, Di Chang, Dongdong Chen, Xin Eric Wang, Achuta Kadambi

摘要

视觉语言模型(VLM)在整合语言和视觉推理方面展现出卓越的能力,但在理解动态时空交互方面仍然存在根本性限制。人类毫不费力地跟踪和推理物体的移动、旋转和视角变化——这些能力对于稳健的动态现实世界理解至关重要,但当前的VLM明显缺乏。在本文中,我们介绍了VLM4D,第一个专门设计用于评估VLM时空推理能力的基准。我们的基准包含多样化的真实世界和合成视频,并附有精心策划的问答对,强调平移和旋转运动、视角感知和运动连续性。通过对最先进的开源和闭源VLM进行全面评估,我们发现与人类基线相比存在显著的性能差距,突出了现有模型的基本缺陷。广泛分析表明,VLM在整合多个视觉线索和保持时间连贯性方面尤其困难。我们进一步探索了有前景的方向,例如利用4D特征场重建和有针对性的时空监督微调,证明了它们在增强时空理解方面的有效性。我们的工作旨在鼓励更深入地探索改进VLM的空间和时间基础,为更强大、更可靠的动态环境视觉智能铺平道路。
查看 arXiv 页面查看 PDF
VLM4D:迈向视觉语言模型中的时空感知

评论

Shijie ZhouShijie Zhou
论文作者
论文提交者

首个明确旨在评估视觉语言模型(VLM)时空(4D)推理能力的基准数据集。