⏶51
UniVG-R1: 结合强化学习的推理引导通用视觉定位
发表
由
Mingxing Li 提交
作者:
Sule Bai, Mingxing Li, Yong Liu, Jing Tang, Haoji Zhang, Lei Sun,
Xiangxiang Chu, Yansong Tang
摘要
传统的视觉定位方法主要集中在单图像场景和简单的文本参照。然而,将这些方法扩展到涉及隐式和复杂指令的现实世界场景,特别是结合多张图像时,会带来重大挑战,这主要归因于缺乏跨多样化多模态上下文的高级推理能力。在这项工作中,我们旨在解决更实际的通用定位任务,并提出了 UniVG-R1,一个由推理引导的多模态大型语言模型(MLLM),用于通用视觉定位,它通过强化学习(RL)结合冷启动数据增强了推理能力。具体来说,我们首先构建了一个高质量的思维链(CoT)定位数据集,并标注了详细的推理链,以通过监督微调引导模型沿着正确的推理路径。随后,我们执行基于规则的强化学习,鼓励模型识别正确的推理链,从而激励其推理能力。此外,我们发现随着 RL 训练的进展,由于简单样本的普遍存在而产生的难度偏差,并提出了一个难度感知权重调整策略以进一步增强性能。实验结果证明了 UniVG-R1 的有效性,在 MIG-Bench 上实现了最先进的性能,比现有方法提高了 9.1%。此外,我们的模型表现出强大的泛化能力,在四个图像和视频推理定位基准测试中,零样本性能平均提高了 23.4%。项目页面可通过 https://amap-ml.github.io/UniVG-R1-page/ 访问。
我们是从 Qwen3-base 模型而不是 Qwen3-instruct 开始的。所以,比 Qwen3-instruct 高 1.3 点确实不错,因为我们没有使用 Qwen3 团队使用的任何机密数据。我们发布了所有的数据和训练检查点。