⏶31
VRBench:长篇叙事视频中的多步推理基准
发表
由
Jiashuo Yu 提交

作者:
Jiashuo Yu, Yue Wu, Meng Chu, Zhifei Ren, Zizheng Huang,
Pei Chu, Ruijie Zhang, Yinan He, Qirui Li,
Songze Li, Zhenxiang Li, Zhongying Tu, Conghui He, Yu Qiao, Yali Wang, Yi Wang, Limin Wang


摘要
我们提出了VRBench,这是第一个为评估大型模型多步推理能力而设计的长篇叙事视频基准,解决了现有评估中忽视时间推理和程序有效性的局限。它包含1,010个长视频(平均时长1.6小时),以及9,468个人工标注的多步问答对和30,292个带有时间戳的推理步骤。这些视频通过多阶段过滤过程进行整理,包括专家评委交叉评审以优先考虑情节连贯性。我们开发了一个人机协作框架,该框架生成连贯的推理链,每个推理链都需要多个时间上扎实的步骤,涵盖七种类型(例如,事件归因、隐式推理)。VRBench设计了一个多阶段评估流程,在结果和过程两个层面评估模型。除了用于最终结果的多项选择题(MCQs)外,我们还提出了一种进度级LLM引导的评分指标,以多维度全面评估推理链的质量。通过对VRBench上的12个LLM和16个VLM进行广泛评估,我们进行了深入分析,并提供了宝贵的见解,从而推动了多步推理领域的发展。
针对长叙事视频中多步推理的基准