⏶4
Video-RTS: 重新思考强化学习与测试时间缩放,实现高效增强的视频推理
发表
由
Yu 提交
作者: Ziyang Wang, Jaehong Yoon, Shoubin Yu, Md Mohaiminul Islam, Gedas Bertasius, Mohit Bansal
摘要
尽管基于强化学习(RL)的大型语言模型(LLM)在视频推理方面取得了进展,但数据收集和微调仍然是重大挑战。这些方法通常依赖于大规模的监督微调(SFT),需要大量的视频数据和冗长的思维链(CoT)标注,这使得它们成本高昂且难以扩展。为了解决这个问题,我们提出了Video-RTS,一种新方法,通过将数据高效的RL与视频自适应的测试时缩放(TTS)策略相结合,显著提高了数据效率,从而提升视频推理能力。基于对RL样本数据扩展的观察,我们跳过了资源密集型的SFT步骤,采用高效的纯RL训练和基于输出的奖励,无需额外标注或大量微调。此外,为了更有效地利用计算资源,我们引入了一种稀疏到密集的视频TTS策略,该策略通过根据输出一致性迭代添加帧来改进推理。我们在多个视频推理基准上验证了我们的方法,结果表明Video-RTS在使用仅3.6%训练样本的情况下,其准确性平均超越现有视频推理模型2.4%。例如,Video-RTS在最近且具有挑战性的视频推理基准Video-Holmes上取得了4.2%的提升,在MMVU上取得了2.6%的提升。值得注意的是,我们的纯RL训练和自适应视频TTS提供了互补的优势,使Video-RTS能够实现强大的推理性能。
https://sites.google.com/cs.unc.edu/videorts2025/