Omni-R1:基于双系统协作实现全模态推理的强化学习

发表
zhumuzhizhumuzhi 提交
作者: Hao Zhong, zhumuzhiMuzhi Zhu, Zongze Du, Zheng Huang, Canyu ZhaoCanyu Zhao, Mingyu LiuMingyu Liu, Wen Wang, Hao Chen, Chunhua Shen

摘要

长时程视频音频推理和细粒度像素理解对全模态模型提出了相互矛盾的要求:密集的时间覆盖需要许多低分辨率帧,而精确的定位需要高分辨率输入。我们通过双系统架构解决了这种权衡:全局推理系统选择信息丰富的关键帧并以低空间成本重写任务,而细节理解系统则对选定的高分辨率片段执行像素级定位。由于“最优”关键帧选择和重新表述是模糊且难以监督的,我们将它们表述为一个强化学习 (RL) 问题,并提出了 Omni-R1,一个基于 Group Relative Policy Optimization 构建的端到端 RL 框架。Omni-R1 通过与细节理解系统的在线协作获得的层次化奖励来训练全局推理系统,仅需在小任务分块上进行一个 epoch 的 RL 训练。在两个具有挑战性的基准测试,即参考视听分割 (RefAVS) 和推理视频对象分割 (REVOS) 上进行的实验表明,Omni-R1 不仅超越了强大的监督基线,而且优于专业的现有技术模型,同时显着改善了域外泛化能力并减轻了多模态幻觉。我们的结果展示了 RL 在大规模全模态推理中的首次成功应用,并突显了通向通用基础模型的可扩展路径。
查看 arXiv 页面查看 PDF

评论

zhumuzhizhumuzhi
论文作者
论文提交者

项目页面:https://aim-uofa.github.io/OmniR1/