⏶4
CyberV:视频理解中的测试时扩展控制论
发表
由
Jiahao Meng 提交
作者:
Jiahao Meng, Shuyang Sun, Yue Tan, Lu Qi, Yunhai Tong,
Xiangtai Li,
Longyin Wen

摘要
当前的多模态大语言模型(MLLMs)在理解长视频或复杂视频时可能会遇到困难,这主要是因为推理时的计算需求、鲁棒性不足以及准确性有限,其根本原因在于它们的前馈处理性质。对于参数量较少的模型,这些限制可能更为严重。为了解决这些限制,我们提出了一种受控制论原理启发的新颖框架,将视频MLLM重新设计为自适应系统,能够在推理过程中实现自我监控、自我纠正和动态资源分配。我们的方法CyberV引入了一个控制论循环,该循环由一个MLLM推理系统、一个传感器和一个控制器组成。具体而言,传感器监控MLLM的前向过程并收集中间解释(如注意力漂移),然后控制器决定何时以及如何触发自我纠正并生成反馈以指导下一轮处理。这种推理时自适应扩展框架增强了冻结的MLLM,而无需重新训练或额外组件。实验表明有显著改进:CyberV在VideoMMMU上将Qwen2.5-VL-7B的性能提升了8.3%,将InternVL3-8B提升了5.5%,超越了竞争性专有模型GPT-4o。当应用于Qwen2.5-VL-72B时,它带来了10.0%的提升,甚至达到了与人类专家相媲美的性能。此外,我们的方法在VideoMME和WorldSense等通用基准上表现出持续的提升,突显了其在使MLLM更鲁棒、更准确地进行动态视频理解方面的有效性和泛化能力。代码已在 https://github.com/marinero4972/CyberV 发布。
我们提出了一种名为CyberV的新颖框架,该框架受控系统论(或控制论)原理启发,将视频MLLM重新设计为自适应系统,能够在推理过程中进行自我监控、自我修正和动态资源分配。它使小型模型能够超越GPT-4o等专有系统,并使大型开源模型在VideoMMMU上取得最先进的结果。