不要只看一次:迈向结合选择性视觉回顾的多模态交互式推理

发表
Junhyeok KimJunhyeok Kim 提交
作者: Jiwan ChungJiwan Chung, Junhyeok KimJunhyeok Kim, Siyeol KimSiyeol Kim, Jaeyoung LeeJaeyoung Lee, Min Soo Kim, Youngjae Yu

摘要

我们提出了v1,这是一种多模态大型语言模型(MLLM)的轻量级扩展,它能在推理过程中实现选择性视觉回访。虽然当前MLLM通常只消费一次视觉输入并纯粹基于内部记忆进行推理,但v1引入了一种简单的点复制(point-and-copy)机制,允许模型在整个推理过程中动态检索相关的图像区域。这种机制以最小的修改增强了现有架构,使得模型能够根据其不断演变的假设上下文地访问视觉标记。为了训练这种能力,我们构建了v1g,这是一个包含30万条多模态推理轨迹以及交错视觉基础标注的数据集。在MathVista、MathVision和MathVerse这三个多模态数学推理基准上的实验表明,v1在性能上始终优于可比基线,尤其是在需要精细视觉参考和多步推理的任务上。我们的结果表明,动态视觉访问是增强有基础多模态推理的一个有前景的方向。代码、模型和数据将发布以支持未来的研究。
查看 arXiv 页面查看 PDF

评论

Junhyeok KimJunhyeok Kim
论文作者
论文提交者

我们推出了 v1,这是一个多模态大型语言模型(MLLM)的轻量级扩展,它能够在推理过程中实现选择性视觉重访。虽然当前的 MLLM 通常只消费一次视觉输入并纯粹基于内部记忆进行推理,但 v1 引入了一种简单的点-复制机制,允许模型在整个推理过程中动态检索相关的图像区域。该机制以最小的修改增强了现有架构,使得模型能够根据其不断演变的假设,对视觉标记进行上下文访问。为了训练这一能力,我们构建了 v1g,一个包含 300K 多模态推理轨迹并带有交错视觉基础标注的数据集。在三个多模态数学推理基准测试——MathVista、MathVision 和 MathVerse——上的实验表明,v1 持续优于可比较的基线模型,特别是在需要细粒度视觉参考和多步推理的任务上。我们的结果表明,动态视觉访问是增强基础多模态推理的一个有前景的方向。代码、模型和数据将发布以支持未来的研究。

代码:https://github.com/jun297/v1