⏶3
何时何地:基于扩散模型的视频语言模型,具有实体感知分割功能,用于长视频理解
发表
由
taesiri 提交

作者:
Pengcheng Fang,
Yuxia Chen, Rui Guo

摘要
理解视频不仅仅是回答开放式问题,它还需要能够精确定位事件发生的时间以及实体在时间上的交互方式。虽然最近的视频 LLM 在整体推理方面取得了显著进展,但它们在时间感知方面仍然粗糙:时间戳仅被隐式编码,帧级别特征在捕捉连续性方面较弱,并且语言视觉对齐经常偏离感兴趣的实体。在本文中,我们提出了 Grounded VideoDiT,一个视频 LLM,通过引入三项关键创新来克服这些限制。首先,一个 Diffusion Temporal Latent (DTL) 编码器增强了边界敏感性并保持了时间一致性。其次,对象接地表示显式地将查询实体绑定到局部视觉证据,从而加强了对齐。第三,一种带有离散时间戳的混合标记方案提供了显式的时间戳建模,实现了细粒度的时间推理。总而言之,这些设计使 Grounded VideoDiT 具备了强大的接地能力,这在 Charades STA、NExT GQA 和多个 VideoQA 基准测试上的最先进结果得到了验证。
理解视频不仅仅是回答开放式问题,还需要能够精确定位事件发生的时间以及实体如何随时间互动。尽管最近的视频 LLM 在整体推理方面取得了显著进展,但在时间感知方面仍然粗糙:时间戳仅被隐式编码,帧级特征在捕捉连续性方面较弱,并且语言视觉对齐经常偏离感兴趣的实体。在本文中,我们提出了 Grounded VideoDiT,一个旨在通过引入三项关键创新来克服这些限制的视频 LLM。首先,扩散时间潜在 (DTL) 编码器增强了边界敏感性并保持了时间一致性。其次,对象地面表示将查询实体显式绑定到局部视觉证据,从而增强了对齐。第三,具有离散时间令牌的混合令牌方案提供了显式时间戳建模,实现了细粒度的时间推理。总之,这些设计使 Grounded VideoDiT 具有强大的地面能力,这在 Charades STA、NExT GQA 和多个 VideoQA 基准测试上均得到了最先进的结果验证。