深度视频发现:用于长视频理解的使用工具的智能体搜索

发表
Xiaoyi ZhangXiaoyi Zhang 提交
作者: Xiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu

摘要

长篇视频理解由于其广泛的时空复杂性以及在扩展上下文下进行问答的难度,带来了重大挑战。尽管大型语言模型(LLMs)在视频分析能力和长上下文处理方面取得了显著进展,但在处理信息密集型的小时级视频时,它们仍然表现出局限性。为了克服这些局限性,我们提出了深度视频发现(Deep Video Discovery)代理,以利用分段视频剪辑上的代理搜索策略。与之前手动设计僵化工作流的视频代理不同,我们的方法强调代理的自主性。通过在多粒度视频数据库上提供一套以搜索为中心的工具,我们的 DVD 代理利用 LLM 先进的推理能力,根据其当前观察状态进行规划,策略性地选择工具,为动作制定适当的参数,并根据收集到的信息迭代地完善其内部推理。我们在多个长视频理解基准上进行了全面评估,证明了整个系统设计的优势。我们的 DVD 代理达到了最先进(SOTA)的性能,在具有挑战性的 LVBench 数据集上大幅超越了先前的工作。我们还提供了全面的消融研究和深入的工具分析,为进一步推进针对长篇视频理解任务的智能代理提供了见解。代码将在稍后发布。
查看 arXiv 页面查看 PDF

评论

Xiaoyi ZhangXiaoyi Zhang
论文提交者

Deep Video Discovery旨在通过代理搜索方法解决超长视频理解问题,在富有挑战性的LVBench上达到了74.2%的准确率,使用转录本后进一步提高到76.0%。代码将稍后作为MCP服务发布。