⏶4
FrameThinker:通过多轮帧聚焦学习长视频的思考
发表
由
Xiaoye Qu 提交
作者: Zefeng He, Xiaoye Qu, Yafu Li,
Siyuan Huang, Daizong Liu, Yu Cheng
摘要
AI 生成总结
FrameThinker,一个新颖的框架,通过监督微调和强化学习迭代地审问视频内容,从而增强视频推理能力,与现有模型相比,实现了显著的改进和效率。虽然大型视觉语言模型(LVLM)在视频理解方面取得了显著进展,但其在长视频推理方面的应用受到均匀帧采样和静态文本推理的阻碍,这些方法效率低下且难以处理视觉密集型视频任务。为了克服这些挑战,在本文中,我们引入了“用长视频思考”的概念,并提出了一种新颖的框架 FrameThinker。在此框架内,LVLM 能够迭代地询问视频内容。在 LVLM 中开发这种视频推理能力会带来显著的挑战,尤其是在适应模型处理新视频动作(例如,选择帧)以及设计奖励函数以引导 LVLM 采用新引入的动作方面。为了解决这些挑战,我们提出了一种两阶段训练策略,首先使用监督微调(SFT)来灌输基本动作能力,然后使用强化学习(RL)来优化战略决策策略。值得注意的是,在这个 RL 阶段,我们对每个动作和格式奖励的奖励设计进行了深入而全面的探索。在 Video-Holmes、LongVideo-Reason 等推理基准以及 LongVideoBench、MLVU、VideoMME 和 LVBench 等长视频理解基准上的广泛实验表明,FrameThinker 相较于基线平均提高了 10.4%,同时大大减少了处理的帧数。最值得注意的是,我们 7B 模型 FrameThinker 在 LongVideo-Reason 上创下了新的技术水平,在平均仅使用 20.6 帧的情况下达到了 76.1% 的准确率。这不仅优于具有竞争力的 LongVILA-R1(72.0%),而且使用的帧数少 20 倍以上(相对于 512 帧),展示了无与伦比的效率和有效性。
在推理基准(如 Video-Holmes、LongVideo-Reason)和长视频理解基准(如 LongVideoBench、MLVU、VideoMME 和 LVBench)上进行的广泛实验表明,FrameThinker 在处理的帧数急剧减少的同时,平均比基线模型提高了 +10.4%。