VCRBench:探索大型视频语言模型的长篇因果推理能力

发表
Pritam SarkarPritam Sarkar 提交
作者: Pritam SarkarPritam Sarkar, Ali Etemad

摘要

尽管视频理解最近取得了进展,但大型视频语言模型 (LVLM) 执行基于视频的因果推理的能力仍未得到充分探索,这主要是因为缺乏在视觉接地和目标驱动场景下评估因果推理的相关专用基准。为了填补这一空白,我们引入了一个名为“基于视频的长篇因果推理” (Video-based long-form Causal Reasoning, VCRBench) 的新型基准。我们使用简单日常活动的程序性视频来创建 VCRBench,这些视频的步骤被有意打乱,每个片段捕获一个关键的因果事件,以测试 LVLM 是否能识别、推理并正确排序完成特定目标所需的事件。此外,该基准经过精心设计,旨在防止 LVLM 利用语言捷径(如多项选择或二元问答格式中常见的情况),同时避免评估开放式问答带来的挑战。我们在 VCRBench 上对最先进的 LVLM 进行评估表明,这些模型在基于视频的长篇因果推理方面存在困难,主要是因为它们难以直接从视觉观察中建模长距离因果依赖关系。作为实现此类能力的一个简单步骤,我们提出了“识别-推理分解” (Recognition-Reasoning Decomposition, RRD),这是一种模块化方法,将基于视频的因果推理分解为视频识别和因果推理两个子任务。我们在 VCRBench 上的实验表明,RRD 显著提高了在该基准上的准确率,增幅高达 25.2%。最后,我们的深入分析揭示了一些有趣的见解,例如,LVLM 在复杂的基于视频的长篇因果推理任务中主要依赖于语言知识。
查看 arXiv 页面查看 PDF

评论

Pritam SarkarPritam Sarkar
论文作者
论文提交者

VCRBench:探索大型视频语言模型的长篇因果推理能力