⏶77
通过推理分解实现自奖励的视觉语言模型
发表
由
Wenhao Yu 提交

作者:
Zongxia Li, Wenhao Yu,
Chengsong Huang, Rui Liu,
Zhenwen Liang, Fuxiao Liu, Jingxi Che, Dian Yu, Jordan Boyd-Graber,
Haitao Mi, Dong Yu

摘要
视觉-语言模型(VLM)常常会出现视觉幻觉,即描述了图像中实际不存在的内容,以及语言捷径,即它们跳过视觉部分而仅依赖文本先验知识。这些问题之所以出现,是因为大多数针对 VLM 的后训练方法依赖于简单的可验证答案匹配,并且只监督最终输出,导致中间的视觉推理缺乏明确的指导。因此,VLM 接收到的视觉信号稀疏,并且经常学会优先考虑基于语言的推理而非视觉感知。为了缓解这个问题,一些现有方法通过人类标注或外部大型模型提炼的标签来增加视觉监督。然而,人类标注劳动密集且成本高昂,而且由于外部信号无法适应不断演变的策略,它们会导致分布偏移,从而可能导致奖励投机。在本文中,我们介绍了 Vision-SR1,这是一种自奖励方法,通过强化学习在不依赖外部视觉监督的情况下改进视觉推理。Vision-SR1 将 VLM 推理分解为两个阶段:视觉感知和语言推理。模型首先被提示生成独立的视觉感知,这些感知足以回答问题,而无需回看输入图像。为了验证这种独立性,然后使用相同的 VLM 模型,仅以生成的感知作为输入,重新提示模型执行语言推理以计算奖励。这种自奖励与对最终输出的监督相结合,提供了一个平衡的训练信号,从而加强了视觉感知和语言推理。我们的实验表明,Vision-SR1 在各种视觉-语言任务中改进了视觉推理,减轻了视觉幻觉,并减少了对语言捷径的依赖。
通过推理分解实现自我奖励的视觉语言模型
-- 将VLM推理分解为视觉和语言部分
-- 向同一个VLM发出不带视觉输入的指令,以获得视觉奖励