⏶73
时间盲区:为什么视频-语言模型无法像人类一样“看”?
发表
由
Mukul Ranjan 提交

作者:
Ujjwal Upadhyay,
Mukul Ranjan, Zhiqiang Shen, Mohamed Elhoseiny


摘要
视觉-语言模型(VLMs)的最新进展在理解视频中的时空关系方面取得了令人瞩目的成就。然而,当空间信息被遮蔽时,这些模型难以捕捉纯粹的时间模式。我们引入了 SpookyBench,这是一个基准测试,其中信息仅编码在类似噪声帧的时间序列中,反映了从生物信号到秘密通信等自然现象。有趣的是,尽管人类能以超过98%的准确率识别这些序列中的形状、文本和模式,但最先进的 VLM 却达到了0%的准确率。这一性能差距突出了一项关键局限性:过度依赖帧级别的空间特征,以及无法从时间线索中提取意义。此外,在低空间信噪比(SNR)的数据集上训练时,模型的时间理解能力比人类感知退化得更快,尤其是在需要精细时间推理的任务中。克服这一局限性将需要新颖的架构或训练范式,将空间依赖性与时间处理解耦。我们的系统分析表明,这个问题在各种模型规模和架构中普遍存在。我们发布 SpookyBench,旨在促进时间模式识别研究,并弥合人类与机器视频理解之间的差距。数据集和代码已在我们的项目网站上提供:https://timeblindness.github.io/。
论文:https://arxiv.org/abs/2505.24867
代码:https://github.com/TimeBlindness/time-blindness
项目主页:https://timeblindness.github.io/