⏶59
视觉三元统一强化学习:一种强化学习看遍所有
发表
由
Xuyang Shen 提交
作者:
Yan Ma, Linge Du,
Xuyang Shen,
Shaoxiang Chen, Pengfei Li,
Qibing Ren, Lizhuang Ma,
Yuchao Dai,
Pengfei Liu, Junjie Yan


摘要
强化学习(RL)极大地提升了视觉-语言模型(VLM)的推理能力。然而,RL 在推理任务之外的应用,特别是在物体检测和定位等感知密集型任务中,仍 largely 未被探索。我们提出了 V-Triune,一个视觉三元统一强化学习系统,它使得 VLM 能够在单个训练流程中联合学习视觉推理和感知任务。V-Triune 包含三个互补组件:样本级数据格式化(Sample-Level Data Formatting,用于统一不同的任务输入)、验证器级奖励计算(Verifier-Level Reward Computation,通过专用验证器提供定制奖励)和源级指标监控(Source-Level Metric Monitoring,用于在数据源级别诊断问题)。我们进一步引入了一种新颖的动态 IoU 奖励(Dynamic IoU reward),它为 V-Triune 处理的感知任务提供自适应、渐进和明确的反馈。我们的方法使用开源的 7B 和 32B 主干模型,在现成的 RL 训练框架内进行实例化。由此产生的模型被称为 Orsta(One RL to See Them All),在推理和感知任务中均表现出持续改进。这种广泛的能力很大程度上得益于它在多样化数据集上的训练,该数据集围绕四种代表性的视觉推理任务(数学、谜题、图表和科学)和四种视觉感知任务(定位、检测、计数和 OCR)构建。随后,Orsta 在 MEGA-Bench Core 上取得了显著提升,其各种 7B 和 32B 模型变体的改进幅度从 +2.1 到令人印象深刻的 +14.1 不等,性能优势扩展到广泛的下游任务。这些结果凸显了我们用于 VLM 的统一 RL 方法的有效性和可扩展性。V-Triune 系统和 Orsta 模型已公开,地址为 https://github.com/MiniMax-AI。
V-Triune 是一个视觉统一强化学习 (RL) 系统,它使视觉语言模型 (VLM) 能够共同学习推理和感知任务。它集成了三个关键组件:样本级数据格式化、验证器级奖励计算和源级指标监控,并引入了一种新颖的动态 IoU 奖励,用于自适应感知反馈。该系统基于开源 7B 和 32B 模型构建,命名为 Orsta,在 MEGA-Bench Core 中的各种任务上取得了显著的性能提升(高达 +14.1),证明了 RL 在推理之外的可扩展性和有效性。
模型和代码可在以下链接获取:MiniMax/One-RL-to-See-Them-All。