Pixel Reasoner: 通过好奇心驱动的强化学习激励像素空间推理

发表
Wenhu ChenWenhu Chen 提交
作者: Alex Su, Haozhe Wang, Weiming RenWeimin Ren, Fangzhen Lin, Wenhu ChenWenhu Chen

摘要

思维链推理显著提高了大语言模型 (LLMs) 在各个领域的性能。然而,这种推理过程仅限于文本空间,限制了其在视觉密集型任务中的有效性。为了解决这一限制,我们引入了像素空间推理的概念。在这个新颖的框架内,视觉语言模型 (VLMs) 配备了一系列视觉推理操作,例如放大和选择帧。这些操作使 VLMs 能够直接从视觉证据中检查、探究和推断,从而提高视觉任务的推理保真度。在 VLMs 中培养这种像素空间推理能力面临着显著挑战,包括模型初始能力不均衡以及不愿采纳新引入的像素空间操作。我们通过两阶段训练方法解决了这些挑战。第一阶段采用合成推理轨迹上的指令微调,使模型熟悉新的视觉操作。在此之后,强化学习 (RL) 阶段利用好奇心驱动的奖励机制来平衡像素空间推理和文本推理之间的探索。通过这些视觉操作,VLMs 可以与复杂的视觉输入(如信息丰富的图像或视频)进行交互,主动收集必要信息。我们证明了这种方法显著提高了 VLM 在各种视觉推理基准上的性能。我们的 7B 模型 \model 在 V* bench 上达到 84%,在 TallyQA-Complex 上达到 74%,在 InfographicsVQA 上达到 84%,标志着迄今为止任何开源模型达到的最高准确率。这些结果强调了像素空间推理的重要性以及我们框架的有效性。
查看 arXiv 页面查看 PDF
Pixel Reasoner: 通过好奇心驱动的强化学习激励像素空间推理

评论

Wenhu ChenWenhu Chen
论文作者
论文提交者

思维链推理显著提升了大型语言模型 (LLM) 在各个领域的表现。然而,这种推理过程仅限于文本空间,限制了其在视觉密集型任务中的有效性。为解决这一限制,我们引入了在像素空间中进行推理的概念。在这一新颖框架内,视觉-语言模型 (VLM) 配备了一系列视觉推理操作,例如放大 (zoom-in) 和选择帧 (select-frame)。这些操作使 VLM 能够直接检查、询问并从视觉证据中推断,从而增强了视觉任务的推理准确性。在 VLM 中培养这种像素空间推理能力面临显著挑战,包括模型最初能力不平衡以及其不愿采用新引入的像素空间操作。我们通过两阶段训练方法来解决这些挑战。第一阶段利用合成推理轨迹进行指令微调,使模型熟悉新颖的视觉操作。随后,强化学习 (RL) 阶段利用好奇心驱动的奖励机制来平衡像素空间推理和文本推理之间的探索。通过这些视觉操作,VLM 可以与复杂视觉输入交互,例如信息丰富的图像或视频,主动收集必要信息。我们证明了这种方法显著提高了 VLM 在各种视觉推理基准上的表现。我们的 7B 模型 Pixel-Reasoner 在 V* bench 上达到了 84%,在 TallyQA-Complex 上达到了 74%,在 InfographicsVQA 上达到了 84%,这是迄今为止任何开源模型所取得的最高准确率。这些结果突显了像素空间推理的重要性以及我们框架的有效性。