TempSamp-R1: 通过强化微调实现视频 LLM 的有效时间采样

发表
Yunheng LiYunheng Li 提交
作者: Yunheng LiYunheng Li, Jing Cheng, Shaoyong Jia, Hangyi Kuang, Shaohui Jiao, Qibin Hou, Ming-Ming Cheng

摘要

AI 生成总结
TempSamp-R1 是一个强化微调框架,通过使用离策略监督和混合思维链训练范式,增强了多模态大语言模型在视频时间对齐方面的能力,并在基准数据集上取得了最先进的性能。
本文介绍了 TempSamp-R1,这是一个新的强化微调框架,旨在提高多模态大型语言模型(MLLMs)在视频时间定位任务上的适应效率。我们发现,现有的强化学习方法,如组相对策略优化(GRPO),依赖于策略更新的在线采样。然而,在具有大型时间搜索空间的任务中,这种策略效率低下且性能受限,因为它经常无法识别时间上准确的解决方案。为了解决这一限制,TempSamp-R1 利用真实标注作为离线策略监督,提供时间上精确的指导,有效地弥补了在线策略解决方案的稀疏性和错位。为了进一步稳定训练并减少基于奖励更新的方差,TempSamp-R1 提供了一种非线性软优势计算方法,通过不对称变换动态重塑奖励反馈。通过采用混合思维链(CoT)训练范式,TempSamp-R1 优化了一个单一的统一模型,以支持 CoT 和非 CoT 推理模式,从而能够高效地处理具有不同推理复杂度的查询。实验结果表明,TempSamp-R1 的性能优于基于 GRPO 的基线,在基准数据集上创下了新的最先进性能:Charades-STA (R1@0.7: 52.9%, +2.7%)、ActivityNet Captions (R1@0.5: 56.0%, +5.3%) 和 QVHighlights (mAP: 30.0%, +3.0%)。此外,TempSamp-R1 在数据有限的情况下表现出强大的少样本泛化能力。代码:https://github.com/HVision-NKU/TempSamp-R1
查看 arXiv 页面查看 PDF

评论

Yunheng LiYunheng Li
论文作者
论文提交者

图片 1.png

Igor KurIgor Kur

代码链接 404 了。