⏶17
VR-Thinker:通过图像推理促进视频奖励模型
发表
由
Jiaheng Liu 提交
作者:
Qunzhong Wang, Jie Liu, Jiajun Liang, Yilei Jiang, Yuanxing Zhang, Jinyuan Chen, Yaozhi Zheng, Xintao Wang, Pengfei Wan, Xiangyu Yue, Jiaheng Liu

摘要
AI 生成总结
VideoReward Thinker 通过视觉推理操作和可配置的内存窗口增强了多模态奖励模型,提高了在视频偏好基准上的准确性。多模态奖励模型(RM)的最新进展显著改善了视觉生成模型的训练后效果。然而,当前的 RM 面临固有的局限性:(1)视觉输入会消耗大量的上下文预算,导致帧数减少并丢失精细细节;(2)所有视觉信息都打包在初始提示中,加剧了链式思维推理过程中的幻觉和遗忘。为了克服这些问题,我们推出了 VideoReward Thinker(VR-Thinker),一个“图像思考”框架,它为 RM 提供了视觉推理操作(例如,选择帧)和一个可配置的视觉内存窗口。这使得 RM 能够在上下文限制内主动获取和更新视觉证据,从而提高推理保真度和可靠性。我们通过一个强化微调流程激活视觉推理:(i)使用经过策划的视觉链式思维数据进行冷启动,以提炼基本的推理技能和操作格式;(ii)选择那些维度和整体判断都正确的样本,然后在这些高质量的轨迹上进行拒绝采样微调,以进一步增强推理;(iii)应用组相对策略优化(GRPO)来加强推理。我们的方法在视频偏好基准上提供了最先进的开源模型准确率,尤其是在长视频方面:一个 7B 的 VR-Thinker 在 VideoGen Reward 上达到 80.5%,在 GenAI-Bench 上达到 82.3%,在 MJ-Bench-Video 上达到 75.6%。这些结果验证了“图像思考”多模态奖励模型的有效性和潜力。
多模态奖励模型 (RM) 的最新进展已显著改进了视觉生成模型的训练后处理。然而,当前的 RM 面临固有的局限性:(1) 视觉输入消耗大量上下文预算,导致帧数减少并丢失细粒度细节;(2) 所有视觉信息都被打包到初始提示中,加剧了链式思考推理过程中的幻觉和遗忘。为了克服这些问题,我们引入了 VideoReward Thinker (VR-Thinker),一个“思考-与图像同行”的框架,该框架为 RM 配备了视觉推理操作(例如,选择帧)和一个可配置的视觉内存窗口。这使得 RM 能够在上下文限制内主动获取和更新视觉证据,从而提高推理的准确性和可靠性。我们通过一个强化微调管道激活视觉推理:(i) 使用精心策划的视觉链式思考数据进行冷启动,以提炼基本的推理技能和操作格式;(ii) 选择每维度和整体判断都正确的样本,然后对这些高质量的轨迹进行拒绝采样微调,以进一步增强推理;(iii) 应用组相对策略优化 (GRPO) 来加强推理。我们的方法在视频偏好基准测试的开源模型中取得了最先进的准确率,尤其是在较长视频方面:一个 7B 的 VR-Thinker 在 VideoGen Reward 上达到 80.5%,在 GenAI-Bench 上达到 82.3%,在 MJ-Bench-Video 上达到 75.6%。这些结果验证了“思考-与图像同行”多模态奖励模型的有效性和前景。