Video-LMM 训练后:深入了解大型多模态模型的视频推理

发表
taesiritaesiri 提交
作者: Yolo Y. TangYunlong Tang, Jing Bi, Pinxin Liu, Zhenyu PanZhenyu Pan, Zhangyun TanZhangyun Tan, Qianxiang Shen, Jiani Liu, HangHuaHang Hua, Junjia Guo, Yunzhong Xiao, Chao Huang, Zhiyuan Wang, Susan Liang, Xinyi Liu, Yizhi Song, Yuhe NieYuhe Nie, Jia-Xing Zhong, Bozheng Li, Daiqing QiDaiqing Qi, ziyun zengZiyun Zeng, Ali VosoughiAli Vosoughi, Luchuan Song, Zeliang ZhangZeliang Zhang, Daiki Shimada, Han Liu, Jiebo Luo, Chenliang Xu

摘要

AI 生成总结
本次调查研究了 Video-LMM 的训练后方法,重点关注监督微调、强化学习和测试时缩放,同时解决了视频理解中的挑战。
视频理解代表着计算机视觉中最具挑战性的前沿领域,要求模型能够推理复杂的时空关系、长期依赖关系和多模态证据。最近出现的视频大型多模态模型(Video-LMMs),它集成了视觉编码器和强大的基于解码器的语言模型,在视频理解任务中展现出了卓越的能力。然而,将这些模型从基础感知系统转变为复杂的推理引擎的关键阶段——即训练后阶段,在文献中仍然是碎片化的。本综述对 Video-LMMs 的训练后方法进行了首次全面的考察,涵盖了三个基本支柱:带有思维链(chain-of-thought)的监督微调(SFT)、来自可验证目标的强化学习(RL)以及通过增强推理计算实现的测试时扩展(TTS)。我们提出了一个结构化的分类法,阐明了这些技术的角色、相互联系以及针对视频的适应性,解决了时间定位、时空定位、长视频效率和多模态证据集成等独特挑战。通过对代表性方法的系统分析,我们综合了关键的设计原则、见解和评估协议,同时识别了奖励设计、可扩展性和成本效益优化方面存在的关键开放性挑战。我们还整理了重要的基准、数据集和指标,以促进对训练后有效性的严格评估。本综述旨在为研究人员和从业人员提供一个统一的框架,以提升 Video-LMM 的能力。附加资源和更新可在以下网址维护:https://github.com/yunlong10/Awesome-Video-LMM-Post-Training
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

视频理解代表了计算机视觉领域最具挑战性的前沿领域,需要模型能够推理复杂的时空关系、长期依赖关系和多模态证据。最近出现的多模态视频大语言模型(Video-LMMs),它们集成了视觉编码器和强大的基于解码器的语言模型,在视频理解任务中展现出了卓越的能力。然而,将这些模型从基本的感知系统转变为复杂的推理引擎的关键阶段,即训练后阶段,在文献中仍然是零散的。本调查提供了对 Video-LMMs 训练后方法的第一次全面考察,涵盖了三个基本支柱:带有思维链(chain-of-thought)的监督微调(SFT)、来自可验证目标的强化学习(RL)以及通过增强推理计算进行的测试时缩放(TTS)。我们提出了一个结构化的分类法,阐明了这些技术的作用、相互联系以及视频特定的适应性,解决了时间定位、时空定位、长视频效率和多模态证据集成等独特挑战。通过对代表性方法的系统分析,我们综合了关键的设计原则、见解和评估协议,同时确定了奖励设计、可扩展性和成本效益优化方面关键的开放性挑战。我们进一步整理了重要的基准、数据集和指标,以促进对训练后有效性的严格评估。本调查旨在为研究人员和实践者提供一个统一的框架,以推进 Video-LMM 的能力。