VCR-Bench:视频链式思考推理的综合评估框架

04月10日发表
04月11日由 Lin ChenLin Chen 提交
作者: qykYukun Qi, Yiming Zhao, Yu ZengYu Zeng, xikun baoXikun Bao, Wenxuan HuangWenxuan Huang, Lin ChenLin Chen, Zehui ChenZehui Chen, Jie Zhao, Zhongang QiZhongang Qi, Feng Zhao

摘要

Chain-of-Thought (CoT) 推理的进步已显著增强了大型语言模型 (LLM) 和大型视觉语言模型 (LVLM) 的能力。然而,针对视频 CoT 推理的严格评估框架仍然缺失。当前的视频基准未能充分评估推理过程,也未能揭示失败是源于感知能力不足还是推理能力不足。因此,我们推出了 VCR-Bench,这是一个旨在全面评估 LVLM 视频 Chain-of-Thought 推理能力的新基准。VCR-Bench 包含 859 个视频,涵盖各种视频内容和时长,以及 1,034 个高质量的问答对。每对问答都经过人工标注,带有逐步的 CoT 基本原理,其中每个步骤都带有标签,以指示其与感知能力或推理能力的关联。此外,我们设计了七个不同的任务维度,并提出了 CoT 分数,以基于逐步标记的 CoT 基本原理来评估整个 CoT 过程。在 VCR-Bench 上进行的大量实验突显了当前 LVLM 的显著局限性。即使是表现最佳的模型 o1,CoT 分数也仅为 62.8%,准确率仅为 56.7%,而大多数模型得分低于 40%。实验表明,大多数模型在感知步骤上的得分低于推理步骤,这揭示了 LVLM 在复杂视频推理的时间空间信息处理方面的关键瓶颈。CoT 分数与准确率之间稳健的正相关性证实了我们评估框架的有效性,并强调了 CoT 推理在解决复杂视频推理任务中的关键作用。我们希望 VCR-Bench 能够作为一个标准化的评估框架,并揭示复杂视频推理任务中的实际缺陷。
查看 arXiv 页面查看 PDF

评论

Lin ChenLin Chen
论文作者
论文提交者

项目页面: https://vlm-reasoning.github.io/VCR-Bench/