⏶8
TEMPURA:用于行动中推理的时序事件掩码预测与理解
发表
由
Wenhao Chai 提交

作者:
Jen-Hao Cheng, Vivian Wang, Huayu Wang, Huapeng Zhou, Yi-Hao Peng, Hou-I Liu,
Hsiang-Wei Huang, Kuang-Ming Chen, Cheng-Yen Yang,
Wenhao Chai,
Yi-Ling Chen,
Vibhav Vineet, Qin Cai, Jenq-Neng Hwang


摘要
理解因果事件关系并在视频中实现精细的时间定位,对于视觉-语言模型来说仍然具有挑战性。现有方法要么压缩视频 token 以降低时间分辨率,要么将视频视为未分段的流,这会模糊精细的事件边界并限制因果依赖关系的建模。我们提出了 TEMPURA(视频行动推理的时间事件掩码预测与理解),这是一个两阶段训练框架,旨在增强视频时间理解能力。TEMPURA 首先应用掩码事件预测推理,根据密集的事件标注重建缺失事件并生成分步因果解释,这借鉴了有效的填补技术。然后,TEMPURA 学习进行视频分割和密集描述生成,将视频分解为具有详细、时间戳对齐描述的非重叠事件。我们在 VER 数据集上训练了 TEMPURA,这是一个由我们整理的大规模数据集,包含 100 万个训练实例和 50 万个具有时间对齐事件描述和结构化推理步骤的视频。在时间定位和高光检测基准上的实验表明,TEMPURA 优于强大的基线模型,证实了将因果推理与精细时间分割相结合可以改善视频理解。
TEMPURA使视频-语言模型能够推理因果事件关系,并生成对未剪辑视频的细粒度、带有时间戳的描述。