⏶10

用于通过强化压缩视频立方体实现高效视频理解的 LMM

04月21日发表

04月22日由 Yushi Bai 提交

作者: Ji Qi, Yuan Yao, Yushi Bai, Bin Xu, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua

摘要

大型多模态模型 (LMM) 对视频帧进行统一感知，对于时间信息密度本身就存在差异的视频来说，这会导致计算效率低下。本文介绍了一种名为 Quicksviewer 的 LMM，它采用了一种新的感知范式，使用 Gumbel Softmax 将非均匀密度的视频划分成不同的立方体，然后对每个立方体进行统一重采样，从而实现高效的视频理解。这种简单直观的方法基于视频的时间密度动态地在线压缩视频，显著降低了时空冗余（总体压缩率达 45 倍），同时支持使用大感受野进行高效训练。由于感知效率的提升，我们通过三个渐进阶段从语言骨干网络训练该模型，每个阶段平均包含时长 420 秒/1fps 的长视频。仅使用 80 万个视频-文本训练样本，我们的模型在准确率方面最多比采用固定划分策略的直接基线高出 8.72，证明了其在性能方面的有效性。在 Video-MME 基准测试中，Quicksviewer 在适度的序列长度下达到了 SOTA 水平，并且每帧所需的 tokens 数量仅为基线的 5%。基于这种范式，增加输入帧的数量揭示了模型能力的清晰幂律关系。实验验证表明，由立方体网络生成的片段有助于分析视频中的连续事件。

查看 arXiv 页面查看 PDF

Yushi Bai

论文作者

论文提交者

一种通过视频立方体的强化压缩实现高效视频理解的 LMM。

Zijun

干得好！非常有见地。我在 ICLR 2025 期间看到了你们的工作。希望能在下一个会议上看到你们的工作发表。

用于通过强化压缩视频立方体实现高效视频理解的 LMM

摘要

评论