⏶3

ReFoCUS：用于语境理解的强化引导帧优化

06月02日发表

06月04日由 Junho Kim 提交

作者: Hosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro

摘要

大型多模态模型 (LMMs) 近期在实现有效的视觉语言推理方面取得了进展，然而，理解视频内容的能力仍受限于次优的帧选择策略。现有方法通常依赖静态启发式或外部检索模块将帧信息输入到视频-LLM中，这可能无法提供与查询相关的信息。在这项工作中，我们引入了ReFoCUS (Reinforcement-guided Frame Optimization for Contextual UnderStanding)，一个新颖的帧级策略优化框架，它将优化目标从文本响应转向视觉输入选择。ReFoCUS通过强化学习学习一个帧选择策略，利用来自参考LMM的奖励信号来反映模型对最能支持时间相关响应的帧的内在偏好。为了高效探索巨大的组合帧空间，我们采用了一种自回归、条件选择架构，该架构在降低复杂度的同时确保了时间连贯性。我们的方法不需要帧级显式监督，并在多个视频问答基准上持续提高推理性能，这突出了使帧选择与模型内部效用保持一致的益处。

查看 arXiv 页面查看 PDF

Junho Kim

论文作者

论文提交者

查看我们最新的框架：

SALOVA：用于视觉线索基础化的高效检索，https://arxiv.org/abs/2411.16173
VideoMa2mba：用于长视频理解的状态空间建模，https://arxiv.org/abs/2411.19460
ReFoCUS：用于帧选择的强化学习，https://arxiv.org/abs/2506.01274

ReFoCUS：用于语境理解的强化引导帧优化

摘要

评论