ReFoCUS:用于语境理解的强化引导帧优化

发表
Junho KimJunho Kim 提交
作者: Hosu LeeHosu Lee, Junho KimJunho Kim, Hyunjun Kim, Yong Man Ro

摘要

大型多模态模型 (LMMs) 近期在实现有效的视觉语言推理方面取得了进展,然而,理解视频内容的能力仍受限于次优的帧选择策略。现有方法通常依赖静态启发式或外部检索模块将帧信息输入到视频-LLM中,这可能无法提供与查询相关的信息。在这项工作中,我们引入了ReFoCUS (Reinforcement-guided Frame Optimization for Contextual UnderStanding),一个新颖的帧级策略优化框架,它将优化目标从文本响应转向视觉输入选择。ReFoCUS通过强化学习学习一个帧选择策略,利用来自参考LMM的奖励信号来反映模型对最能支持时间相关响应的帧的内在偏好。为了高效探索巨大的组合帧空间,我们采用了一种自回归、条件选择架构,该架构在降低复杂度的同时确保了时间连贯性。我们的方法不需要帧级显式监督,并在多个视频问答基准上持续提高推理性能,这突出了使帧选择与模型内部效用保持一致的益处。
查看 arXiv 页面查看 PDF

评论

Junho KimJunho Kim
论文作者
论文提交者

查看我们最新的框架:

  1. SALOVA:用于视觉线索基础化的高效检索,https://arxiv.org/abs/2411.16173
  2. VideoMa2mba:用于长视频理解的状态空间建模,https://arxiv.org/abs/2411.19460
  3. ReFoCUS:用于帧选择的强化学习,https://arxiv.org/abs/2506.01274