⏶103
R-4B:通过双模态退火和强化学习激励大型多模态模型(MLLMs)的通用自动思考能力
发表
由
YannQi 提交

作者: Jie Jiang,
Qi Yang,
Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng

摘要
具备逐步思考能力的多模态大语言模型 (MLLMs) 在复杂的推理问题上展现出卓越的性能。然而,对于无需复杂推理即可解决的简单问题,这种思考过程是冗余的。为了解决这种效率低下问题,我们提出了 R-4B,一个自动思考的 MLLM,它可以根据问题的复杂性自适应地决定何时进行思考。R-4B 的核心思想是利用双模式退火赋予模型思考和不思考的能力,并应用双模式策略优化 (BPO) 来提高模型在确定是否激活思考过程方面的准确性。具体来说,我们首先在一个精心策划的、涵盖各种主题的数据集上训练模型,该数据集包含来自思考和非思考模式的样本。然后,模型在改进的 GRPO 框架下进行第二阶段训练,其中策略模型被强制为每个输入查询生成来自两种模式的响应。实验结果表明,R-4B 在 25 个具有挑战性的基准测试中取得了最先进的性能。它在大多数任务上的表现优于 Qwen2.5-VL-7B,并在推理密集型基准测试上实现了与 Kimi-VL-A3B-Thinking-2506 (16B) 等大型模型相当的性能,同时计算成本更低。
[📚 Arxiv 论文] [🤗 Hugging Face] [💻 代码]
我们提出 R-4B,一个专为通用自动思考设计的多模态大型语言模型,它根据任务复杂性自主地在逐步思考和直接响应生成之间切换。此功能使 R-4B 能够提供高质量的响应,同时显著提高推理效率并降低计算成本。
R-4B 的开发遵循一个两阶段训练范式:
(1) 双模式退火,为 VQA 建立思考和非思考能力;以及
(2) 双模式策略优化 (BPO),使模型能够根据输入需求自适应地在思考和非思考模式之间切换。
我们的模型提供三种模式来控制响应过程。
自动思考模式:释放跨通用主题的自动思考能力,从简单的问答到复杂的科学分析。它仅在必要时进行思考,从而节省时间和计算资源。
支持手动控制:显式命令模型使用其“思考”或“不思考”能力,让您在每项任务中都能做出自己的选择。
我们的模型现已完全开源。它在同等规模的模型中取得了最先进的性能。
[2025.08.20] 🚀 vLLM 支持已上线! 我们的 R-4B 模型现已完全兼容 vLLM 以实现高性能推理。
[2025.08.18] 🏆 排名第一! 我们很高兴地宣布,R-4B 已在 OpenCompass 多模态推理排行榜 上位居所有开源模型的第一名!
[2025.08.11] 🥇 排名第一! R-4B 在 OpenCompass 多模态学术排行榜 上,在 20B 参数以下模型中排名第一!
[2025.08.05] 🎉 R-4B 已发布! 我们的模型现已公开发布。您可以从 Hugging Face 下载。