⏶12
G1: 通过强化学习自举视觉语言模型的感知和推理能力
发表
由
Liang Chen 提交

作者:
Liang Chen,
Hongcheng Gao, Tianyu Liu,
Zhiqi Huang,
Flood Sung,
Xinyu Zhou, Yuxin Wu, Baobao Chang


摘要
视觉语言模型 (VLM) 在许多直接多模态任务中表现出色,但难以将这种能力转化为在游戏等互动、视觉丰富环境中的有效决策。这种“知行”差距显著限制了它们作为自主代理的潜力,因为领先的 VLM 在简单游戏中往往表现不佳。为了解决这个问题,我们引入了 VLM-Gym,这是一个精心设计的强化学习 (RL) 环境,具有多样化的视觉游戏、统一的接口和可调节的、组合式的难度,专门为可扩展的多游戏并行训练而设计。利用 VLM-Gym,我们使用纯 RL 驱动的自我演化训练了 G0 模型,这些模型展示了涌现的感知和推理模式。为了进一步缓解游戏多样性带来的挑战,我们开发了 G1 模型。G1 在 RL 微调之前,先进行感知增强的冷启动。我们得到的 G1 模型在所有游戏中都持续超越它们的教师模型,并优于领先的专有模型,如 Claude-3.7-Sonnet-Thinking。系统分析揭示了一个有趣的发现:在整个 RL 训练过程中,感知和推理能力相互促进。包括 VLM-Gym 和 RL 训练的源代码已在 https://github.com/chenllliang/G1 发布,以促进未来关于将 VLM 发展为有能力的交互式代理的研究。
代码在 https://github.com/chenllliang/G1
https://cdn-uploads.huggingface.co/production/uploads/61b0a4ce1b3d95b3d1ed9251/alRS_IxjuUuRaXiqZeHhE.qt