迈向多模态理解:以稳定扩散作为任务感知特征提取器

发表
Vatsal AgarwalVatsal Agarwal 提交
作者: Vatsal AgarwalVatsal Agarwal, Matthew Gwilliam, Gefen Kohavi, Eshan Verma, Daniel Ulbricht, Abhinav Shrivastava

摘要

多模态大型语言模型(MLLM)的最新进展使其具备了基于图像的问答能力。然而,一个关键的局限性在于其使用 CLIP 作为视觉编码器;虽然 CLIP 可以捕获粗粒度的全局信息,但它往往会遗漏与输入查询相关的细粒度细节。为了解决这些不足,本工作研究了预训练的文本到图像扩散模型是否可以作为指令感知的视觉编码器。通过分析其内部表示,我们发现扩散特征不仅语义丰富,而且能够编码强大的图像-文本对齐。此外,我们发现可以利用文本条件来使模型聚焦于与输入问题相关的区域。然后,我们研究了如何将这些特征与大型语言模型对齐,并发现了一个信息泄露现象,即大型语言模型可能会无意中恢复原始扩散提示中的信息。我们分析了这种泄露的原因,并提出了一种缓解策略。基于这些见解,我们探索了一种简单的融合策略,该策略同时利用 CLIP 和条件扩散特征。我们在通用视觉问答(VQA)和专用 MLLM 基准上评估了我们的方法,展示了扩散模型在视觉理解方面的潜力,尤其是在需要空间和组合推理的以视觉为中心的任务中。我们的项目页面位于 https://vatsalag99.github.io/mustafar/
查看 arXiv 页面查看 PDF

评论

Vatsal AgarwalVatsal Agarwal
论文作者
论文提交者

我们提出利用文本到图像扩散模型,作为 MLLM 的任务感知特征提取器。