自回归语义视觉重建帮助 VLM 更好地理解

发表
Jiaqi WangJiaqi Wang 提交
作者: Dianyi Wang, Wei SongWei Song, Yikun WangYikun Wang, Siyuan Wang, Kaicheng Yu, Zhongyu Wei, Jiaqi Wang

摘要

典型的大型视觉-语言模型(LVLM)仅对文本序列应用自回归监督,而未将视觉模态完全整合到学习过程中。这导致了三个关键限制:(1) 无法在没有附带字幕的情况下使用图像,(2) 字幕可能遗漏关键视觉细节的风险,以及(3) 某些以视觉为中心的内容无法通过文本充分传达的挑战。因此,当前的LVLM通常优先考虑视觉到语言的对齐,而可能忽略了细粒度的视觉信息。尽管一些先前的工作探索了自回归图像生成,但有效利用自回归视觉监督来增强图像理解仍然是一个开放的挑战。在本文中,我们引入了自回归语义视觉重建(ASVR),它能够在统一的自回归框架内实现视觉和文本模态的联合学习。我们发现,自回归地重建图像的原始视觉外观并不能增强甚至可能损害多模态理解。相比之下,自回归地重建图像的语义表示持续提高了理解能力。值得注意的是,我们发现即使模型输入是连续的图像特征,它们也能有效地重建离散的语义标记,从而在各种多模态理解基准上实现稳定且一致的改进。我们的方法在不同数据规模(556k-2M)和LLM骨干网络类型上均实现了显著的性能提升。具体而言,ASVR使LLaVA-1.5在14个多模态基准上的平均得分提高了5%。代码可在 https://github.com/AlenjandroWang/ASVR 获取。
查看 arXiv 页面查看 PDF

评论

Jiaqi WangJiaqi Wang
论文提交者

🧠 ASVR:自回归语义视觉重建助力 VLM 更好理解

(发音为“as-we-are”)

🤔 动机:自回归视觉生成监督能否增强 VLM 的理解能力?

📉 简单地重建原始图像像素无助于多模态理解——甚至可能损害性能。

🧱 相反,自回归重建语义表示能够带来更强的视觉-语言理解能力。

🚀 这种以语义为中心的方法在各种基准测试中都能提供持续的改进。

🔁 ASVR 表明:它不是关于预测像素,而是关于预测意义。一个简单而有效的训练更优 VLM 的方法。

💻 代码:github.com/AlenjandroWang/ASVR