用于通过强化压缩视频立方体实现高效视频理解的 LMM

发表
Yushi BaiYushi Bai 提交
作者: Ji Qi, Yuan Yao, Yushi BaiYushi Bai, Bin Xu, Juanzi Li, Zhiyuan LiuZhiyuan Liu, Tat-Seng ChuaTat-Seng Chua

摘要

大型多模态模型 (LMM) 对视频帧进行统一感知,对于时间信息密度本身就存在差异的视频来说,这会导致计算效率低下。本文介绍了一种名为 Quicksviewer 的 LMM,它采用了一种新的感知范式,使用 Gumbel Softmax 将非均匀密度的视频划分成不同的立方体,然后对每个立方体进行统一重采样,从而实现高效的视频理解。这种简单直观的方法基于视频的时间密度动态地在线压缩视频,显著降低了时空冗余(总体压缩率达 45 倍),同时支持使用大感受野进行高效训练。由于感知效率的提升,我们通过三个渐进阶段从语言骨干网络训练该模型,每个阶段平均包含时长 420 秒/1fps 的长视频。仅使用 80 万个视频-文本训练样本,我们的模型在准确率方面最多比采用固定划分策略的直接基线高出 8.72,证明了其在性能方面的有效性。在 Video-MME 基准测试中,Quicksviewer 在适度的序列长度下达到了 SOTA 水平,并且每帧所需的 tokens 数量仅为基线的 5%。基于这种范式,增加输入帧的数量揭示了模型能力的清晰幂律关系。实验验证表明,由立方体网络生成的片段有助于分析视频中的连续事件。
查看 arXiv 页面查看 PDF

评论

Yushi BaiYushi Bai
论文作者
论文提交者

一种通过视频立方体的强化压缩实现高效视频理解的 LMM。

ZijunZijun

干得好!非常有见地。我在 ICLR 2025 期间看到了你们的工作。希望能在下一个会议上看到你们的工作发表。