⏶11
基于多轮接地强化学习的高分辨率视觉推理
发表
由
Xinyu Huang 提交

作者:
Xinyu Huang,
Yuhao Dong, Weiwei Tian, Bo Li, Rui Feng, Ziwei Liu


摘要
最先进的大型多模态模型(LMM)在处理高分辨率图像时面临挑战,因为这些输入被转换为巨大的视觉标记,其中许多与下游任务无关。在本文中,我们提出了一种多轮基于定位的策略优化(MGPO)方法,这是一个端到端强化学习(RL)框架,它使LMM能够在多轮对话框架中,根据模型预测的定位坐标,通过自动裁剪子图像,迭代地聚焦于关键视觉区域。与需要昂贵额外定位标注的监督微调(SFT)相比,我们的方法强调LMM在RL训练过程中可以涌现出强大的定位能力,仅利用源自最终答案正确性的二元奖励函数。此外,我们观察到LMM在推演过程中难以自主触发视觉定位。为了解决这个冷启动问题,我们设计了一个多轮对话模板,并将策略损失计算限制在多个对话轮次中生成的模型输出上,从而促进了稳定优化。广泛的实验表明,在未经定位标注的标准视觉问答简答数据上进行训练时,MGPO相比GRPO能有效激发更强的定位能力,在分布内MME-Realworld数据集上实现了5.4%的提升,在具有挑战性的分布外(OOD)V* Bench数据集上实现了5.2%的提升。值得注意的是,在Qwen2.5-VL-7B模型上进行MGPO后期训练,使用21K样本后,其在OOD V* Bench上的表现超越了OpenAI的o1和GPT-4o模型。代码可在https://github.com/EvolvingLMMs-Lab/MGPO获取。
最先进的大型多模态模型(LMMs)在处理高分辨率图像时面临挑战,因为这些输入被转换为巨大的视觉标记(visual tokens),其中许多与下游任务无关。在本文中,我们提出了多轮定位策略优化(MGPO),这是一个端到端的强化学习(RL)框架,它使LMMs能够通过在多轮对话框架内根据模型预测的定位坐标自动裁剪子图像,从而迭代地关注关键视觉区域。与需要昂贵额外定位标注的监督微调(SFT)相比,我们的方法强调LMMs在RL训练过程中可以展现出强大的定位能力,仅利用一个源于最终答案正确性的二元奖励函数。此外,我们观察到LMMs难以在推广(rollout)过程中自主触发视觉定位。为了解决这个冷启动问题,我们设计了一个多轮对话模板,并将策略损失计算限制在多个对话轮次中生成的模型输出上,从而促进了稳定的优化。大量实验表明,在未进行定位标注的标准视觉问答短答案数据上训练时,MGPO比GRPO更有效地激发了更强的定位能力,在同分布的MME-Realworld上带来了5.4%的改进,并在具有挑战性的域外(OOD)V* Bench上带来了5.2%的改进。值得注意的是,MGPO在21K样本的Qwen2.5-VL-7B上进行后训练,在OOD V* Bench上超越了OpenAI的o1和GPT-4o模型。代码可在 https://github.com/EvolvingLMMs-Lab/MGPO 获取。