⏶10
VideoChat-R1:通过强化微调增强时空感知
04月09日发表
04月10日由
AK 提交

作者:
Xinhao Li,
Ziang Yan,
Desen Meng,
Lu Dong,
Xiangyu Zeng,
Yinan He, Yali Wang, Yu Qiao, Yi Wang,
Limin Wang
摘要
强化学习的最新进展显着提高了多模态大型语言模型 (MLLM) 的推理能力。虽然诸如群体相对策略优化 (GRPO) 和基于规则的奖励机制等方法在文本和图像领域显示出希望,但它们在视频理解中的应用仍然有限。本文系统地探索了使用 GRPO 对视频 MLLM 进行强化微调 (RFT),旨在增强时空感知,同时保持通用能力。我们的实验表明,RFT 对于特定任务的改进非常数据高效。通过在有限样本的时空感知目标上进行多任务 RFT,我们开发了 VideoChat-R1,这是一个强大的视频 MLLM,在时空感知任务上实现了最先进的性能,同时不牺牲聊天能力,同时展现出新兴的时空推理能力。与 Qwen2.5-VL-7B 相比,VideoChat-R1 在时间定位 (+31.8) 和对象跟踪 (+31.2) 等任务中将性能提高了数倍。此外,它显着提高了 VideoMME (+0.9)、MVBench (+1.0) 和感知测试 (+0.9) 等通用 QA 基准的性能。我们的研究结果强调了 RFT 在视频 MLLM 的专业任务增强方面的潜力。我们希望我们的工作为未来视频 MLLM 中的 RL 研究提供有价值的见解。
评论

论文提交者