VideoDeepResearch:使用智能体工具进行长视频理解

发表
huaying Yuanhuaying Yuan 提交
作者: Huaying Yuan, Zheng Liu, JUNJIE ZHOUJunjie Zhou, Ji-Rong Wen, Zhicheng Dou

摘要

长视频理解(LVU)因其固有的复杂性和上下文窗口限制,对当前的多模态大型语言模型(MLLM)构成了严峻挑战。人们普遍认为,解决 LVU 任务需要具备扩展上下文窗口、强大视觉感知能力和熟练领域专业知识的基础 MLLM。在这项工作中,我们通过引入 VideoDeepResearch 这一新颖的长视频理解智能体框架,挑战了这一普遍观念。我们的方法仅依赖于一个纯文本的大型推理模型(LRM),结合一个模块化多模态工具包,包括多模态检索器和视觉感知器,所有这些在实践中都易于获得。对于每个 LVU 任务,系统通过推理制定问题解决策略,同时通过工具使用选择性地访问和利用必要的视频内容。我们在流行的 LVU 基准(包括 MLVU、Video-MME 和 LVBench)上进行了大量实验。我们的结果表明,VideoDeepResearch 比现有 MLLM 基线取得了显著改进,在 MLVU(测试集)、LVBench 和 LongVideoBench 上分别超越了此前的 SOTA 9.6%、6.6% 和 3.9%。这些发现凸显了智能体系统在克服 LVU 问题中关键挑战方面的潜力。
查看 arXiv 页面查看 PDF

评论

huaying Yuanhuaying Yuan
论文提交者

上传论文《VideoDeepResearch: Long Video Understanding With Agentic Tool Using》