将RL扩展到长视频

发表
YukangChenYukangChen 提交
作者: Yukang Chen, Wei HuangWei Huang, Baifeng Shi, Qinghao HuQinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, xiaojuan qiXiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han

摘要

我们引入了一个全栈框架,利用强化学习,将视觉-语言模型(VLMs)的推理能力扩展到长视频。我们通过整合三个关键组件来解决长视频推理的独特挑战:(1) 一个大规模数据集LongVideo-Reason,包含5.2万个高质量推理注释的长视频问答对,涵盖体育、游戏和视频博客等不同领域;(2) 一个两阶段训练流程,通过思维链监督微调(CoT-SFT)和强化学习(RL)扩展VLMs;以及(3) 一个用于长视频RL的训练基础设施,名为多模态强化序列并行(MR-SP),它结合了序列并行和专为长视频定制的vLLM引擎,使用缓存的视频嵌入进行高效展开和预填充。在实验中,LongVILA-R1-7B在VideoMME等长视频问答基准测试中取得了强大的性能。在我们的LongVideo-Reason-eval基准测试中,它还在时间推理、目标与目的推理、空间推理和情节推理方面超越了Video-R1-7B,甚至与Gemini-1.5-Pro持平。值得注意的是,我们的MR-SP系统在长视频RL训练中实现了高达2.1倍的加速。LongVILA-R1随着输入视频帧数量的增加,表现出持续的性能提升。LongVILA-R1标志着在VLMs中实现长视频推理的坚实一步。此外,我们发布了我们的训练系统供公众使用,该系统支持在各种模态(视频、文本和音频)、各种模型(VILA和Qwen系列)甚至图像和视频生成模型上进行RL训练。在单个A100节点(8个GPU)上,它支持对长达一小时的视频(例如,3,600帧/约256k tokens)进行RL训练。
查看 arXiv 页面查看 PDF

评论

YukangChenYukangChen
论文提交者

我们引入了一个全栈框架,通过强化学习(RL)将VLM扩展到长视频,其中包括一个名为LongVideo-Reason的数据集(包含5.2万个带理由的问答),一个多模态强化序列并行(MR-SP)系统,将长视频RL训练速度提高了2.1倍,并支持在单个节点8块A100 GPU上处理长达一小时的视频(例如,3,600帧/约25.6万个token)。此外,我们的代码库支持在各种模态(视频、文本和音频)、各种模型(VILA和Qwen系列)甚至图像和视频生成模型上进行RL训练。代码可在https://github.com/NVlabs/Long-RL获取。

mjmj
此评论已隐藏。
Grant SingletonGrant Singleton

arXiv 解释了这篇论文的详细分析 👉 https://arxivexplained.com/papers/scaling-rl-to-long-videos