⏶132
Vision-Zero:通过策略性游戏化自对弈实现可扩展的VLM自我改进
发表
由
taesiri 提交

作者: Qinsi Wang,
Bo Liu,
Tianyi Zhou, Jing Shi,
Yueqian Lin, Yiran Chen, Hai Helen Li,
Kun Wan, Wentian Zhao



摘要
AI 生成总结
Vision-Zero 是一个领域无关的框架,通过在竞争性视觉游戏中进行自我改进来增强视觉语言模型,使用迭代自博弈策略优化,并在无需人工标注的情况下取得了最先进的性能。虽然强化学习(RL)可以有效地增强视觉语言模型(VLM)的推理能力,但当前方法仍然高度依赖劳动密集型数据集,这些数据集需要大量的手工构建和验证,导致训练成本极高,从而限制了 VLM 的实际部署。为了解决这一挑战,我们提出了 Vision-Zero,一个领域无关的框架,通过从任意图像对生成的竞争性视觉游戏实现 VLM 自我改进。具体来说,Vision-Zero 包含三个主要属性:(1) 战略性自玩框架:Vision-Zero 在“谁是间谍”风格的游戏中训练 VLM,模型在多个角色中进行战略推理和行动。通过互动游戏,模型自主生成训练数据,无需人工标注。(2) 来自任意图像的游戏:与现有的游戏化框架不同,Vision-Zero 可以从任意图像生成游戏,从而增强模型在不同领域的推理能力,并对不同任务表现出强大的泛化能力。我们通过三种不同类型的图像数据集(CLEVR 基础的合成场景、图表和真实世界图像)来展示这种多功能性。(3) 可持续性能提升:我们引入了迭代自玩策略优化(Iterative-SPO),这是一种新颖的训练算法,在自玩和具有可验证奖励的强化学习(RLVR)之间交替进行,缓解了仅自玩训练中常见的性能瓶颈,并实现了持续的长期改进。尽管使用了无标签数据,Vision-Zero 在推理、图表问答和视觉为中心的理解任务上取得了最先进的性能,超越了其他基于标注的方法。模型和代码已发布在 https://github.com/wangqinsi1/Vision-Zero。
尽管强化学习(RL)可以有效地增强视觉语言模型(VLM)的推理能力,但当前方法仍然严重依赖于劳动密集型的数据集,这些数据集需要大量的人工构建和验证,导致训练成本极高,从而限制了 VLM 的实际部署。为了解决这一挑战,我们提出了 Vision-Zero,一个领域无关的框架,通过竞争性视觉游戏来支持 VLM 的自改进,这些游戏由任意图像对生成。具体来说,Vision-Zero 包含三个主要属性:(1)战略自玩框架:Vision-Zero 在“谁是间谍”风格的游戏中训练 VLM,模型在游戏中扮演多个角色,进行战略推理和行动。通过互动游戏,模型能够自主生成训练数据,无需人工标注。(2)从任意图像生成游戏:与现有的游戏化框架不同,Vision-Zero 可以从任意图像生成游戏,从而增强模型在不同领域的推理能力,并显示出对不同任务的强大泛化能力。我们使用三种不同类型的图像数据集(CLEVR-based 合成场景、图表和真实世界图像)来证明这种多功能性。(3)可持续的性能提升:我们引入了迭代自玩策略优化(Iterative-SPO),一种新颖的训练算法,在自玩和具有可验证奖励的强化学习(RLVR)之间交替进行,缓解了仅自玩训练中常见的性能平台期,并实现了持续的长期改进。尽管使用了无标签数据,Vision-Zero 在推理、图表问答和视觉中心理解任务上取得了最先进的性能,超越了其他基于标注的方法。