VGR:视觉基础推理

发表
wangwang 提交
作者: wangJiacong Wang, Zijiang Kang, Haochen Wang, Haiyong Jiang, Jiawen Li, Wu BohongBohong Wu, Ya Wang, Jiao Ran, Xiao Liang, Chao Feng, Jun Xiao

摘要

在多模态链式思考 (CoT) 推理领域,现有方法主要依赖于纯语言空间上的推理,这固有地存在语言偏差,并且很大程度上局限于数学或科学领域。这种狭隘的关注限制了它们处理复杂视觉推理任务的能力,这些任务需要对图像细节进行全面的理解。为了解决这些局限性,本文介绍了一种新型的推理多模态大型语言模型 (MLLM),即 VGR,它具有增强的精细视觉感知能力。与传统的 MLLM 仅在语言空间上回答问题或进行推理不同,我们的 VGR 首先检测可能有助于解决问题的相关区域,然后根据重放的图像区域提供精确的答案。为了实现这一点,我们构建了一个名为 VGR-SFT 的大规模 SFT 数据集,其中包含混合视觉 grounding 和语言演绎的推理数据。VGR 的推理流程允许模型选择用于视觉参考的边界框,并引入重放阶段以将相应的区域集成到推理过程中,从而增强多模态理解。在 LLaVA-NeXT-7B 基线上进行的实验表明,VGR 在需要全面理解图像细节的多模态基准测试中取得了优异的性能。与基线相比,VGR 仅使用 30% 的图像 token 数量,同时在 MMStar 上实现了 +4.1 的分数,在 AI2D 上实现了 +7.1 的分数,在 ChartQA 上实现了 +12.9 的改进。
查看 arXiv 页面查看 PDF

评论

wangwang
论文作者
论文提交者

这是我们对多模态推理的探索性工作,部分sft数据已经可用。欢迎大家就此领域展开讨论。如果您有任何问题,请随时与我们交流。