VideoChat-R1:通过强化微调增强时空感知

04月09日发表
04月10日由 AKAK 提交
作者: XINHAO LIXinhao Li, ziang yanZiang Yan, Desen MengDesen Meng, Lu DongLu Dong, Xiangyu ZengXiangyu Zeng, Yinan HeYinan He, Yali Wang, Yu Qiao, Yi Wang, limin wangLimin Wang

摘要

强化学习的最新进展显着提高了多模态大型语言模型 (MLLM) 的推理能力。虽然诸如群体相对策略优化 (GRPO) 和基于规则的奖励机制等方法在文本和图像领域显示出希望,但它们在视频理解中的应用仍然有限。本文系统地探索了使用 GRPO 对视频 MLLM 进行强化微调 (RFT),旨在增强时空感知,同时保持通用能力。我们的实验表明,RFT 对于特定任务的改进非常数据高效。通过在有限样本的时空感知目标上进行多任务 RFT,我们开发了 VideoChat-R1,这是一个强大的视频 MLLM,在时空感知任务上实现了最先进的性能,同时不牺牲聊天能力,同时展现出新兴的时空推理能力。与 Qwen2.5-VL-7B 相比,VideoChat-R1 在时间定位 (+31.8) 和对象跟踪 (+31.2) 等任务中将性能提高了数倍。此外,它显着提高了 VideoMME (+0.9)、MVBench (+1.0) 和感知测试 (+0.9) 等通用 QA 基准的性能。我们的研究结果强调了 RFT 在视频 MLLM 的专业任务增强方面的潜力。我们希望我们的工作为未来视频 MLLM 中的 RL 研究提供有价值的见解。
查看 arXiv 页面查看 PDF

评论

AKAK
论文提交者

Screenshot 2025-04-10 at 1.41.05 PM.png