释放小时级视频训练以实现长视频-语言理解

发表
BruceLyuBruceLyu 提交
作者: Jingyang Lin, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Xiaodong Yu, Hao Chen, Jiebo Luo, Zicheng Liu, Emad Barsoum

摘要

最近的长视频语言理解基准推动了视频大型多模态模型(Video-LMMs)的进展。然而,标注良好的长视频稀缺,使得对长达一小时的 Video-LLM 训练的探索不足。为了弥补这一空白,我们推出了 VideoMarathon,一个大规模的长视频指令遵循数据集。该数据集包含大约 9,700 小时的长视频,来源多样,每段视频时长从 3 分钟到 60 分钟不等。具体而言,它包含 330 万个高质量问答对,涵盖六个基本主题:时间、空间、物体、动作、场景和事件。与现有视频指令数据集相比,VideoMarathon 将训练视频时长显著延长至 1 小时,并支持 22 种需要短期和长期视频理解的多样化任务。基于 VideoMarathon,我们提出了 Hour-LLaVA,一个用于小时级视频语言建模的强大高效 Video-LMM。它通过利用内存增强模块,自适应地将用户问题相关和时空信息丰富的语义从缓存的完整视频上下文中集成,从而实现小时级视频训练和 1 帧每秒的推理。在我们的实验中,Hour-LLaVA 在多个长视频语言基准上取得了最佳性能,证明了 VideoMarathon 数据集的高质量和 Hour-LLaVA 模型的优越性。
查看 arXiv 页面查看 PDF

评论

BruceLyuBruceLyu
论文提交者

项目网站:https://videomarathon.github.io/

GitHub:https://github.com/jylins/hourllava