R-4B:通过双模态退火和强化学习激励大型多模态模型(MLLMs)的通用自动思考能力

发表
YannQiYannQi 提交
作者: Jie Jiang, YannQiQi Yang, Bolin NiBolin Ni, Shiming Xiang, Han Hu, Houwen Peng

摘要

具备逐步思考能力的多模态大语言模型 (MLLMs) 在复杂的推理问题上展现出卓越的性能。然而,对于无需复杂推理即可解决的简单问题,这种思考过程是冗余的。为了解决这种效率低下问题,我们提出了 R-4B,一个自动思考的 MLLM,它可以根据问题的复杂性自适应地决定何时进行思考。R-4B 的核心思想是利用双模式退火赋予模型思考和不思考的能力,并应用双模式策略优化 (BPO) 来提高模型在确定是否激活思考过程方面的准确性。具体来说,我们首先在一个精心策划的、涵盖各种主题的数据集上训练模型,该数据集包含来自思考和非思考模式的样本。然后,模型在改进的 GRPO 框架下进行第二阶段训练,其中策略模型被强制为每个输入查询生成来自两种模式的响应。实验结果表明,R-4B 在 25 个具有挑战性的基准测试中取得了最先进的性能。它在大多数任务上的表现优于 Qwen2.5-VL-7B,并在推理密集型基准测试上实现了与 Kimi-VL-A3B-Thinking-2506 (16B) 等大型模型相当的性能,同时计算成本更低。
查看 arXiv 页面查看 PDF

评论

YannQiYannQi
论文作者
论文提交者
R-4B:通过双模式退火和强化学习激励大型多模态语言模型的通用自动思考能力

[📚 Arxiv 论文] [🤗 Hugging Face] [💻 代码]

我们提出 R-4B,一个专为通用自动思考设计的多模态大型语言模型,它根据任务复杂性自主地在逐步思考和直接响应生成之间切换。此功能使 R-4B 能够提供高质量的响应,同时显著提高推理效率并降低计算成本。

R-4B 的开发遵循一个两阶段训练范式:

(1) 双模式退火,为 VQA 建立思考和非思考能力;以及

(2) 双模式策略优化 (BPO),使模型能够根据输入需求自适应地在思考和非思考模式之间切换。

🚀 主要特点
  • 🧠 聪明思考,快速行动:自适应和可控的思考!

我们的模型提供三种模式来控制响应过程。

  • 自动思考模式:释放跨通用主题的自动思考能力,从简单的问答到复杂的科学分析。它仅在必要时进行思考,从而节省时间和计算资源。

  • 支持手动控制:显式命令模型使用其“思考”或“不思考”能力,让您在每项任务中都能做出自己的选择。

    • 🏆 强劲性能,对所有人开放!

我们的模型现已完全开源。它在同等规模的模型中取得了最先进的性能

📢 新闻
  • [2025.08.20] 🚀 vLLM 支持已上线! 我们的 R-4B 模型现已完全兼容 vLLM 以实现高性能推理。

  • [2025.08.18] 🏆 排名第一! 我们很高兴地宣布,R-4B 已在 OpenCompass 多模态推理排行榜 上位居所有开源模型的第一名!

  • [2025.08.11] 🥇 排名第一! R-4B 在 OpenCompass 多模态学术排行榜 上,在 20B 参数以下模型中排名第一!

  • [2025.08.05] 🎉 R-4B 已发布! 我们的模型现已公开发布。您可以从 Hugging Face 下载。