VerIPO:通过验证器引导的迭代策略优化在 Video-LLMs 中培养长程推理能力

发表
Yunxin LiYunxin Li 提交
作者: Yunxin LiYunxin Li, Xinyu Chen, Zitao LiZitao Li, Zhenyu Liu, Longyue WangLongyue Wang, Wenhan LuoWenhan Luo, Baotian Hu, Min Zhang

摘要

强化学习 (RL) 应用于视频大语言模型 (Video-LLMs) 在复杂视频推理方面显示出巨大的潜力。然而,流行的强化微调 (RFT) 方法,例如基于结果的 Group Relative Policy Optimization (GRPO),受到数据准备瓶颈(例如,噪声或高成本)的限制,并且在长思维链 (CoTs) 和下游性能的质量方面表现出不稳定的改进。为了解决这些局限性,我们提出了 VerIPO,一种由验证器引导的迭代策略优化方法,旨在逐步提高视频 LLMs 生成深入、长期推理链的能力。核心组件是 Rollout-Aware Verifier,它位于 GRPO 和 Direct Preference Optimization (DPO) 训练阶段之间,形成 GRPO-Verifier-DPO 训练循环。该验证器利用小型 LLMs 作为裁判来评估 rollout 的推理逻辑,从而能够构建高质量的对比数据,包括反射性和上下文一致的 CoTs。这些精心策划的偏好样本驱动了高效的 DPO 阶段(比 GRPO 快 7 倍),显著提高了推理链质量,特别是在长度和上下文一致性方面。这种训练循环得益于 GRPO 的广泛搜索和 DPO 的目标优化。实验结果表明:1) 与标准 GRPO 变体相比,优化速度更快且更有效,产生了卓越的性能;2) 我们训练的模型超越了大规模指令微调 Video-LLMs 的直接推理,在各种视频推理任务上生成了长且上下文一致的 CoTs;以及 3) 我们具有一次迭代的模型优于强大的 LMMs(例如,Kimi-VL)和长推理模型(例如,Video-R1),凸显了其有效性和稳定性。
查看 arXiv 页面查看 PDF

评论

Yunxin LiYunxin Li
论文作者
论文提交者

如何在不遭遇长程推理任务中的冷启动问题的情况下实现通用视频推理?

如何缓解思维过程与最终答案之间的上下文不一致性?

如何有效利用 GRPO 的广泛探索能力以及 DPO 的定向优化能力?

Yunxin LiYunxin Li
论文作者
论文提交者

GitHub 链接: https://github.com/HITsz-TMG/VerIPO

Yunxin LiYunxin Li
论文作者
论文提交者

image.png

Uni-MoEUni-MoE

不同后训练算法的比较:

image.png