⏶10
DeepVideo-R1:通过难度感知回归式GRPO进行视频强化微调
发表
由
Jinyoung Park 提交
作者:
Jinyoung Park, Jeehye Na, Jinyoung Kim,
Hyunwoo J. Kim
摘要
最近的工作表明,基于强化学习(RL)的后训练在增强大型语言模型(LLM)的推理能力方面是有效的。特别是,群组相对策略优化(GRPO)通过采用基于群组归一化奖励的PPO风格强化算法,取得了令人瞩目的成功。然而,GRPO在视频大型语言模型(Video LLM)上的应用研究较少。在本文中,我们探索了GRPO在视频LLM上的应用,并识别出阻碍其有效学习的两个主要问题:(1)对安全机制的依赖,以及(2)优势值消失问题。为了缓解这些挑战,我们提出了DeepVideo-R1,这是一种视频大型语言模型,采用我们提出的Reg-GRPO(回归式GRPO)和难度感知数据增强策略进行训练。Reg-GRPO将GRPO目标重新表述为一个回归任务,直接预测GRPO中的优势值。这种设计消除了对裁剪和最小值函数等安全机制的需求,从而通过使模型与优势值对齐,促进更直接的策略指导。我们还设计了难度感知数据增强策略,该策略在可解决的难度级别上动态地增加训练样本,从而产生多样化和信息丰富的奖励信号。我们的综合实验表明,DeepVideo-R1在多个视频推理基准测试中显著提高了视频推理性能。
本文介绍了 DeepVideo-R1,这是一个视频大型语言模型,通过我们提出的 Reg-GRPO(回归式 GRPO)和难度感知数据增强策略进行训练。Reg-GRPO 将 GRPO 目标重新表述为一个回归任务,直接预测 GRPO 中的优势。此外,难度感知数据增强策略能够在可解决的难度级别上动态地增强训练样本,从而促进多样化和信息丰富的奖励信号。