⏶10
用于通过强化压缩视频立方体实现高效视频理解的 LMM
发表
由
Yushi Bai 提交
作者: Ji Qi, Yuan Yao,
Yushi Bai, Bin Xu, Juanzi Li,
Zhiyuan Liu,
Tat-Seng Chua

摘要
大型多模态模型 (LMM) 对视频帧进行统一感知,对于时间信息密度本身就存在差异的视频来说,这会导致计算效率低下。本文介绍了一种名为 Quicksviewer 的 LMM,它采用了一种新的感知范式,使用 Gumbel Softmax 将非均匀密度的视频划分成不同的立方体,然后对每个立方体进行统一重采样,从而实现高效的视频理解。这种简单直观的方法基于视频的时间密度动态地在线压缩视频,显著降低了时空冗余(总体压缩率达 45 倍),同时支持使用大感受野进行高效训练。由于感知效率的提升,我们通过三个渐进阶段从语言骨干网络训练该模型,每个阶段平均包含时长 420 秒/1fps 的长视频。仅使用 80 万个视频-文本训练样本,我们的模型在准确率方面最多比采用固定划分策略的直接基线高出 8.72,证明了其在性能方面的有效性。在 Video-MME 基准测试中,Quicksviewer 在适度的序列长度下达到了 SOTA 水平,并且每帧所需的 tokens 数量仅为基线的 5%。基于这种范式,增加输入帧的数量揭示了模型能力的清晰幂律关系。实验验证表明,由立方体网络生成的片段有助于分析视频中的连续事件。
一种通过视频立方体的强化压缩实现高效视频理解的 LMM。