⏶12
GRIT: 教导MLLMs使用图像进行思考
发表
由
Xin Eric Wang 提交
作者: Yue Fan, Xuehai He, Diji Yang, Kaizhi Zheng, Ching-Chen Kuo, Yuting Zheng, Sravana Jyothi Narayanaraju, Xinze Guan, Xin Eric Wang
摘要
最近的研究表明,在构建推理模型中使用强化学习 (RL) 来阐明思维链并生成最终答案是有效的。然而,尽管旨在实现视觉语言任务推理的持续进展不断涌现,但现有开源视觉推理模型通常只生成纯自然语言的推理内容,缺乏对视觉信息的显式整合。这限制了它们产生清晰阐明且视觉接地的推理链的能力。为此,我们提出了基于图像和文本的接地推理 (GRIT),这是一种训练 MLLMs 用图像思考的新方法。GRIT 引入了一种接地推理范式,其中模型生成的推理链交织了自然语言和显式边界框坐标。这些坐标指向输入图像中模型在其推理过程中参考的区域。此外,GRIT 配备了一种强化学习方法 GRPO-GR,该方法基于 GRPO 算法构建。GRPO-GR 采用专注于最终答案准确性和格式的鲁棒奖励,从而消除了对带有推理链标注或显式边界框标签数据的需求。因此,GRIT 实现了出色的数据效率,仅需要现有数据集中少至 20 个图像-问题-答案三元组。全面评估表明,GRIT 有效地训练 MLLMs 生成连贯且视觉接地的推理链,展示了推理和接地能力的成功统一。
🌐 网站:https://grounded-reasoning.github.io
📝 论文:https://arxiv.org/abs/2505.15879
💻 代码:https://github.com/eric-ai-lab/GRIT.git