⏶195
视频思考:视频生成作为一种有前途的多模态推理范式
发表
由
Tony.Li 提交
作者: Jingqi Tong, Yurong Mou, Hangcheng Li,
Mingzhe Li,
Yongzhuo Yang, Ming Zhang, Qiguang Chen, Tianyi Liang, Xiaomeng Hu, Yining Zheng, Xinchi Chen, Jun Zhao, Xuanjing Huang, Xipeng Qiu
摘要
AI 生成总结
“视频思维”范式通过整合视频生成模型来增强多模态推理能力,并通过视频思维基准和在视觉与文本任务上的性能改进得到证明。“与文本共思”("Thinking with Text")和“与图像共思”("Thinking with Images")范式显著提升了大型语言模型(LLMs)和视觉语言模型(VLMs)的推理能力。然而,这些范式存在固有限制:(1)图像仅捕捉单一瞬间,无法表示动态过程或连续变化;(2)文本和视觉作为独立模态的分离,阻碍了统一的多模态理解和生成。为了克服这些限制,我们引入了“与视频共思”("Thinking with Video")这一新范式,它利用视频生成模型(如 Sora-2)在统一的时间框架内桥接视觉和文本推理。为了支持这项探索,我们开发了视频思考基准(VideoThinkBench)。VideoThinkBench 包含两类任务:(1)以视觉为中心的任务(例如,“目测谜题”Eyeballing Puzzles),以及(2)以文本为中心的任务(例如,GSM8K、MMMU 的子集)。我们的评估结果表明 Sora-2 具有强大的推理能力。在以视觉为中心的任务上,Sora-2 通常与最先进(SOTA)的 VLM 相当,甚至在某些任务上(如“目测游戏”Eyeballing Games)超越了 VLM。在以文本为中心的任务上,Sora-2 在 MATH 上实现了 92% 的准确率,在 MMMU 上实现了 75.53% 的准确率。此外,我们系统地分析了这些能力的来源。我们还发现自洽性和上下文学习可以提高 Sora-2 的性能。总而言之,我们的发现表明视频生成模型是潜在的统一多模态理解和生成模型,将“与视频共思”定位为统一的多模态推理范式。
我们引入了“视频思考”(Thinking with Video),这是一种利用视频生成模型(如 Sora-2)在统一的时间框架内桥接视觉和文本推理的新范式。为了支持这一探索,我们开发了视频思考基准(VideoThinkBench)。我们的研究结果表明,视频生成模型是潜在的统一多模态理解和生成模型,将“视频思考”定位为统一的多模态推理范式。