⏶25
DINO-R1: 激励视觉基础模型的推理能力
发表
由
Zhengzhong Tu 提交
作者: Chenbin Pan, Wenbin He,
Zhengzhong Tu, Liu Ren
摘要
近期,人们对大型语言模型(如 DeepSeek-R1)推理能力的兴趣呈爆炸式增长,这些模型已通过基于强化学习的微调框架(例如 Group Relative Policy Optimization (GRPO) 等方法)取得了显著成功。然而,这种推理能力在视觉基础模型(包括 DINO 系列等表征模型)中仍未得到充分探索,并且显著缺失。在这项工作中,我们提出了 DINO-R1,这是首次尝试使用强化学习来激励视觉基础模型的视觉上下文推理能力。具体而言,DINO-R1 引入了群组相对查询优化(Group Relative Query Optimization, GRQO),这是一种专为基于查询的表征模型设计的新型强化学习风格训练策略,它根据群组归一化的对齐质量计算查询级别的奖励。我们还应用了 KL 正则化来稳定目标性分布,以减少训练的不稳定性。这种联合优化使得跨查询的密集且富有表现力的监督成为可能,同时减轻了过拟合和分布漂移。在 Grounding-DINO 的基础上,我们训练了一系列 DINO-R1 系列模型,这些模型集成了视觉提示编码器和视觉引导的查询选择机制。在 COCO、LVIS 和 ODinW 上的广泛实验表明,DINO-R1 显著优于监督微调基线,在开放词汇和封闭集视觉提示场景中都实现了强大的泛化能力。
DINO-R1:激发视觉基础模型的推理能力