⏶9
VisualSphinx:用于强化学习 (RL) 的大规模合成视觉逻辑谜题
发表
由
Zhangchen Xu 提交

作者:
Yichen Feng,
Zhangchen Xu, Fengqing Jiang, Yuetai Li, Bhaskar Ramasubramanian, Luyao Niu, Bill Yuchen Lin, Radha Poovendran

摘要
视觉语言模型 (VLM) 有望执行有效的多模态推理并做出逻辑连贯的决策,这对于图表理解和空间问题解决等任务至关重要。然而,当前VLM的推理能力缺乏大规模、结构良好的训练数据集。为了弥补这一差距,我们提出了 VisualSphinx,一种前所未有的大规模合成视觉逻辑推理训练数据。为了解决带有基础答案的图像合成挑战,我们提出了一种规则到图像的合成管道,该管道从种子问题中提取并扩展谜题规则,并生成用于谜题样本组装的基础合成图像合成代码。实验表明,使用 GRPO 在 VisualSphinx 上训练的VLM受益于我们数据集的逻辑连贯性和可读性,并在逻辑推理任务上表现出改进的性能。从 VisualSphinx 发展而来的增强推理能力也惠及其他推理任务,例如代数推理、算术推理和几何推理。
视觉语言模型(VLM)被期望能够执行有效的多模态推理并做出逻辑连贯的决策,这对于图表理解和空间问题解决等任务至关重要。然而,当前的VLM推理缺乏大规模且结构良好的训练数据集。为了弥补这一差距,我们提出了VisualSphinx,一种首创的大规模合成视觉逻辑推理训练数据。为了解决带有基础答案的图像合成挑战,我们提出了一种从规则到图像的合成管道,该管道从种子问题中提取并扩展谜题规则,并生成用于谜题样本组装的基础合成图像合成代码。实验表明,在VisualSphinx上使用GRPO训练的VLM受益于我们数据集的逻辑连贯性和可读性,并在逻辑推理任务上表现出改进的性能。从VisualSphinx开发出的增强推理能力也对其他推理任务(如代数推理、算术推理和几何推理)有所裨益。