突破线性可分性上限

发表
EnricoEnrico 提交
作者: EnricoEnrico Vompa, Tanel Tammet, Mohit Vaishnav

摘要

大多数最先进的视觉-语言模型(VLM)在抽象推理任务上似乎受到其视觉嵌入线性可分离性的限制。本文通过引入线性可分离性上限(LSC)(一种简单线性分类器在VLM视觉嵌入上的表现)来研究这种“线性推理瓶颈”。我们发现这种瓶颈普遍存在,并非源于糟糕的感知能力,而是源于语言模型推理路径的失效。我们证明这是一种可解决的对齐问题。然而,所需的干预措施是任务依赖的:激活现有路径足以处理语义概念,而复杂的关联推理需要调整核心模型权重。使用后缀微调作为方法学对照,我们发现了强有力的证据,表明VLM中存在强大但休眠的推理路径。然而,对于需要更深层次适应的复杂关联任务,明确提高表示质量会导致模型在新提示格式上失效,尽管其嵌入仍然保持良好的可分离性。最终,这项工作为VLM分析提供了一个新视角,表明鲁棒的推理是一个目标对齐问题,而不仅仅是改进表示学习。
查看 arXiv 页面查看 PDF

评论

EnricoEnrico
论文作者
论文提交者

我们的工作表明,视觉语言模型(VLM)在抽象推理方面的失败源于一个可解决的“线性推理瓶颈”,而非糟糕的感知能力,这揭示了它们强大但尚未被激活的潜力,这些潜力可以通过有针对性的对齐来释放。