⏶66
开放视觉推理器:迁移语言认知行为以实现视觉推理
发表
由
Yana Wei 提交

作者:
Yana Wei, Liang Zhao, Jianjian Sun, Kangheng Lin, Jisheng Yin,
Jingcheng Hu, Yinmin Zhang, En Yu, Haoran Lv, Zejia Weng, Jia Wang, Chunrui Han,
Yuang Peng, Qi Han, Zheng Ge, Xiangyu Zhang, Daxin Jiang, Vishal M. Patel



摘要
大语言模型(LLM)卓越的推理能力源于通过可验证奖励进行强化而出现的认知行为。这项工作研究如何将这一原理转移到多模态大语言模型(MLLM)中,以解锁先进的视觉推理能力。我们引入了一种基于 Qwen2.5-VL-7B 的两阶段范式:首先进行大规模语言冷启动微调,然后进行跨越近 1000 个步骤的多模态强化学习(RL),在规模上超越了所有以前的开源工作。这项开创性工作揭示了三个基本见解:1) 由于语言心智图像,行为转移在冷启动阶段出人意料地早早出现。2) 冷启动广泛记忆视觉行为,而强化学习则关键地识别并扩展有效的模式。3) 转移策略性地偏向高效率行为,例如视觉反思。我们得到的模型 Open-Vision-Reasoner (OVR) 在一系列推理基准测试中取得了最先进的性能,包括在 MATH500 上达到 95.3%、在 MathVision 上达到 51.8% 以及在 MathVerse 上达到 54.6%。我们发布了我们的模型、数据和训练动态,以促进开发出更强大、行为更一致的多模态推理器。
我们推出了 Open Vision Reasoner (OVR)🚀:
一个强大的7B模型,在语言和视觉推理基准测试中达到了SOTA(最先进)水平,经过了近1000步的多模态强化学习(RL)训练!
我们的探索始于一个核心问题:
🤔 大语言模型(LLM)的认知行为能否迁移到多模态大语言模型(MLLM)中,以实现高级视觉推理?
答案是肯定的——方法如下👇
🤖 模型内涵:
👉 两阶段训练:纯文本冷启动 + 大规模多模态强化学习(基于 Qwen2.5-VL-7B)
👉 SOTA 结果:MATH500 95.3%,MathVision 51.8%,MathVerse 54.6%
👉 深度剖析:认知行为如何涌现、迁移和扩展
💡 关于行为迁移的3个关键洞见:
1️⃣ 由于语言的心理意象,行为迁移在冷启动阶段出乎意料地早早出现。
2️⃣ 冷启动阶段广泛记忆视觉行为,而强化学习(RL)则能批判性地辨别并扩展有效模式。
3️⃣ 迁移策略性地偏好高实用性行为,例如视觉反思。
📈 训练动态:
强化学习阶段的Token长度:24k ➡️ 32k ➡️ 48k
奖励和平均响应长度稳步增长,每次序列长度扩展后都会出现急剧飙升。
🙌 更多亮点:
– 奖励和响应长度随序列扩展而共同增长
– 冷启动会损害感知能力,而强化学习则能增强感知能力。
– 感知强化学习面临暂时的不可扩展性问题,即奖励增长但响应长度停滞不前。
🌐 项目地址:https://weiyana.github.io/Open-Vision-Reasoner/
🐙 代码地址:https://github.com/Open-Reasoner-Zero/Open-Vision-Reasoner