通过 GRPO 对多模态 LLM 推理进行无监督后训练

发表
Lai WeiLai Wei 提交
作者: Lai WeiLai Wei, Yuting LiYuting Li, Chen Wang, Weiran HuangYue Wang, Linghe Kong, Weiran HuangWeiran Huang, Lichao Sun

摘要

在后训练阶段改进多模态大型语言模型 (MLLMs) 通常依赖于监督微调 (SFT) 或强化学习 (RL)。然而,这些监督方法需要昂贵且手动标注的多模态数据——这是一种最终不可持续的资源。虽然最近的研究探索了无监督后训练,但其方法复杂且难以迭代。在这项工作中,我们首次研究了 GRPO(一种稳定且可扩展的在线 RL 算法)的使用,以实现在没有任何外部监督的情况下的持续自我改进。我们提出了 MM-UPT,一个简单而有效的 MLLM 无监督后训练框架。MM-UPT 基于 GRPO 构建,用基于多数投票(对多个采样响应进行)的自我奖励机制取代了传统的奖励信号。我们的实验表明,MM-UPT 显著提高了 Qwen2.5-VL-7B 的推理能力(例如,在 MathVista 上从 66.3% 提升到 72.9%,在 We-Math 上从 62.9% 提升到 68.7%),使用的是没有基本事实标签的标准数据集。MM-UPT 还优于先前的无监督基线,甚至接近监督 GRPO 的结果。此外,我们表明,结合仅由 MLLM 本身生成的合成问题,也可以提升性能,这突显了一种有前景的可扩展自我改进方法。总的来说,MM-UPT 在没有外部监督的情况下,为 MLLMs 的持续自主增强提供了一种新范式。我们的代码可在 https://github.com/waltonfuture/MM-UPT 找到。
查看 arXiv 页面查看 PDF

评论

Lai WeiLai Wei
论文作者
论文提交者

在这项工作中,我们首次研究了使用 GRPO 这一稳定且可扩展的在线强化学习算法,以实现在没有任何外部监督的情况下,大型多模态模型 (MLLM) 的持续自我改进。我们提出了 MM-UPT,一个简单但有效的 MLLMs 无监督后训练框架。MM-UPT 基于 GRPO 构建,通过基于多样本响应多数投票的自我奖励机制取代了传统的奖励信号。我们的实验表明,MM-UPT 在不使用真实标注的标准数据集上,显著提高了 Qwen2.5-VL-7B 的推理能力(例如,在 MathVista 上从 66.3\% 提升至 72.9\%,在 We-Math 上从 62.9\% 提升至 68.7\%)。MM-UPT 也优于先前的无监督基线,甚至接近监督式 GRPO 的结果。此外,我们还表明,仅由 MLLM 自身生成的合成问题也能提升性能,这突出了一种有前景的可扩展自我改进方法。总的来说,MM-UPT 为在缺乏外部监督的情况下持续、自主地增强 MLLMs 提供了一种新的范例。