⏶131
将RL扩展到长视频
发表
由
YukangChen 提交

作者: Yukang Chen,
Wei Huang, Baifeng Shi,
Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz,
Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han


摘要
我们引入了一个全栈框架,利用强化学习,将视觉-语言模型(VLMs)的推理能力扩展到长视频。我们通过整合三个关键组件来解决长视频推理的独特挑战:(1) 一个大规模数据集LongVideo-Reason,包含5.2万个高质量推理注释的长视频问答对,涵盖体育、游戏和视频博客等不同领域;(2) 一个两阶段训练流程,通过思维链监督微调(CoT-SFT)和强化学习(RL)扩展VLMs;以及(3) 一个用于长视频RL的训练基础设施,名为多模态强化序列并行(MR-SP),它结合了序列并行和专为长视频定制的vLLM引擎,使用缓存的视频嵌入进行高效展开和预填充。在实验中,LongVILA-R1-7B在VideoMME等长视频问答基准测试中取得了强大的性能。在我们的LongVideo-Reason-eval基准测试中,它还在时间推理、目标与目的推理、空间推理和情节推理方面超越了Video-R1-7B,甚至与Gemini-1.5-Pro持平。值得注意的是,我们的MR-SP系统在长视频RL训练中实现了高达2.1倍的加速。LongVILA-R1随着输入视频帧数量的增加,表现出持续的性能提升。LongVILA-R1标志着在VLMs中实现长视频推理的坚实一步。此外,我们发布了我们的训练系统供公众使用,该系统支持在各种模态(视频、文本和音频)、各种模型(VILA和Qwen系列)甚至图像和视频生成模型上进行RL训练。在单个A100节点(8个GPU)上,它支持对长达一小时的视频(例如,3,600帧/约256k tokens)进行RL训练。
我们引入了一个全栈框架,通过强化学习(RL)将VLM扩展到长视频,其中包括一个名为LongVideo-Reason的数据集(包含5.2万个带理由的问答),一个多模态强化序列并行(MR-SP)系统,将长视频RL训练速度提高了2.1倍,并支持在单个节点8块A100 GPU上处理长达一小时的视频(例如,3,600帧/约25.6万个token)。此外,我们的代码库支持在各种模态(视频、文本和音频)、各种模型(VILA和Qwen系列)甚至图像和视频生成模型上进行RL训练。代码可在https://github.com/NVlabs/Long-RL获取。