⏶5
SiLVR: 一个简单的基于语言的视频推理框架
发表
由
Ce Zhang 提交
作者:
Ce Zhang,
Yan-Bo Lin, Ziyang Wang, Mohit Bansal, Gedas Bertasius
摘要
最近在测试时优化方面的进展使得大型语言模型(LLMs)具备了卓越的推理能力,使其能够解决数学和编码中的高度复杂问题。然而,多模态LLM(MLLMs)的推理能力仍然显著落后,特别是对于复杂的视频-语言任务。为了解决这个问题,我们提出了SiLVR,一个基于简单语言的视频推理框架,它将复杂的视频理解分解为两个阶段。在第一阶段,SiLVR利用多感官输入(如短片字幕和音频/语音字幕)将原始视频转换为基于语言的表示。在第二阶段,语言描述被输入到一个强大的推理LLM中,以解决复杂的视频-语言理解任务。为了处理长上下文多感官输入,我们采用了一种自适应的token削减方案,该方案动态确定token采样的时间粒度。我们简单、模块化且无需训练的视频推理框架在Video-MME(长)、Video-MMMU(理解)、Video-MMLU、CGBench和EgoLife上取得了最佳报告结果。此外,我们专注于视频推理能力的实证研究表明,尽管没有明确地在视频上进行训练,但强大的推理LLM能够有效地聚合来自视频、语音和音频的多感官输入信息,以处理视频中复杂的时序、因果、长上下文和知识获取推理任务。代码可在https://github.com/CeeZh/SILVR获取。
论文:https://arxiv.org/pdf/2505.24869
项目页面:https://sites.google.com/cs.unc.edu/silvr
代码:https://github.com/CeeZh/SILVR