机器心智意象:通过潜在视觉令牌赋能多模态推理

发表
Xueyang YuXueyang Yu 提交
作者: Zeyuan YangZeyuan Yang, Xueyang YuXueyang Yu, Delin Chen, Maohao Shen, Chuang Gan

摘要

愿景-语言模型 (VLM) 在多模态理解方面表现出色,但其仅文本解码的特性迫使它们将视觉推理口头化,从而限制了在需要视觉想象的任务上的性能。最近的尝试训练 VLM 生成显式图像,但繁重的图像生成预训练通常会阻碍推理能力。受人类通过心理意象(视觉线索的内部构建和操作)进行推理方式的启发,我们研究了 VLM 是否可以在不生成显式图像的情况下,通过交错的多模态轨迹进行推理。为此,我们提出了一个名为 Mirage 的机器心理意象框架,它通过在普通文本之外,用潜在视觉标记增强 VLM 解码。具体来说,每当模型选择“进行视觉思考”时,它会将其隐藏状态重铸为下一个标记,从而在不生成像素级图像的情况下,继续多模态轨迹。首先通过从真实图像嵌入中蒸馏来监督潜在标记,然后我们切换到仅文本监督,使潜在轨迹与任务目标紧密对齐。随后的强化学习阶段进一步增强了多模态推理能力。在不同基准上的实验表明,Mirage 无需显式图像生成即可解锁更强的多模态推理能力。
查看 arXiv 页面查看 PDF

评论

Xueyang YuXueyang Yu
论文作者
论文提交者

我们研究了当前视觉语言模型(VLM)是否能够通过生成视觉思维来增强推理能力。现有的统一模型通常难以产生连贯的交错推理轨迹,并且需要大量的预训练和模态对齐。为了解决这些挑战,我们引入了我们的机器心理图像(Mirage)框架,该框架通过在文本标记旁生成隐式视觉标记来交错进行文本和视觉推理。Mirage并非渲染像素级图像,而是选择通过将其隐藏状态重塑为多模态标记来“视觉思考”,从而实现推理轨迹的无缝推进。更多详情请访问我们的项目页面和代码库。

项目页面:https://vlm-mirage.github.io/

代码:https://github.com/UMass-Embodied-AGI/Mirage

https://cdn-uploads.huggingface.co/production/uploads/643340516c2a26ae66d5baa6/cSl0pqe4x19lfgI18bUzR.mp4