⏶3
ReFoCUS:用于语境理解的强化引导帧优化
发表
由
Junho Kim 提交
作者:
Hosu Lee,
Junho Kim, Hyunjun Kim, Yong Man Ro
摘要
大型多模态模型 (LMMs) 近期在实现有效的视觉语言推理方面取得了进展,然而,理解视频内容的能力仍受限于次优的帧选择策略。现有方法通常依赖静态启发式或外部检索模块将帧信息输入到视频-LLM中,这可能无法提供与查询相关的信息。在这项工作中,我们引入了ReFoCUS (Reinforcement-guided Frame Optimization for Contextual UnderStanding),一个新颖的帧级策略优化框架,它将优化目标从文本响应转向视觉输入选择。ReFoCUS通过强化学习学习一个帧选择策略,利用来自参考LMM的奖励信号来反映模型对最能支持时间相关响应的帧的内在偏好。为了高效探索巨大的组合帧空间,我们采用了一种自回归、条件选择架构,该架构在降低复杂度的同时确保了时间连贯性。我们的方法不需要帧级显式监督,并在多个视频问答基准上持续提高推理性能,这突出了使帧选择与模型内部效用保持一致的益处。
查看我们最新的框架: