游戏促泛化:通过游戏学习推理

发表
Yunfei XieYunfei Xie 提交
作者: Yunfei XieYunfei Xie, Yinsong Ma, Shiyi Lan, Alan Yuille, Junfei XiaoJunfei Xiao, Chen Wei

摘要

在多模态大型语言模型(MLLM)中开发可泛化的推理能力仍然面临挑战。受认知科学文献中关于游戏有助于提升可迁移认知技能的启发,我们提出了一种新颖的后训练范式,即视觉游戏学习(Visual Game Learning,简称ViGaL),通过让MLLM玩街机类游戏来发展其跨领域多模态推理的泛化能力。具体而言,我们展示了通过强化学习(RL)在简单的街机类游戏(例如贪吃蛇)上对一个7B参数的MLLM进行后训练,可以显著提高其在MathVista等多模态数学基准以及MMMU等多学科问题上的下游性能,而在此强化学习过程中它并未接触任何已解答的方案、方程式或图表,这表明其捕获了可迁移的推理技能。值得注意的是,我们的模型在多模态推理基准上超越了那些专门针对多模态推理数据进行微调的专家模型,同时还保留了基础模型在通用视觉基准上的性能,而这正是专家模型常常力有不逮的地方。我们的研究结果提出了一种新的后训练范式:合成的、基于规则的游戏可以作为可控且可扩展的预文本任务,从而释放MLLM中可泛化的多模态推理能力。
查看 arXiv 页面查看 PDF

评论

Yunfei XieYunfei Xie
论文作者
论文提交者

在多模态大型语言模型(MLLM)中开发可泛化的推理能力仍然充满挑战。受认知科学文献启发,该文献表明游戏有助于提升可迁移的认知技能,我们提出了一种新颖的后训练范式,名为“视觉游戏学习”(Visual Game Learning,简称ViGaL),通过让MLLM玩街机类游戏,使其发展出多模态推理的域外泛化能力。具体而言,我们展示了通过在简单的街机类游戏(例如贪吃蛇)上使用强化学习(RL)对一个70亿参数的MLLM进行后训练,显著提升了其在多模态数学基准测试(如MathVista)和多学科问题(如MMMU)上的下游表现,而且在RL过程中它没有接触到任何已解决的方案、方程式或图表,这表明它捕获了可迁移的推理技能。值得注意的是,我们的模型在多模态推理基准测试中超越了那些专门针对多模态推理数据进行微调的专业模型,同时保持了基础模型在通用视觉基准测试上的性能,而这正是专业模型常常力所不及的挑战。我们的研究结果提出了一种新的后训练范式:合成的、基于规则的游戏可以作为可控且可扩展的预训练任务,从而解锁MLLM中可泛化的多模态推理能力。

Yunfei XieYunfei Xie
论文作者
论文提交者

一个视频展示了我们的模型在贪吃蛇游戏中如何战胜Gemini-2.5-pro。更多结果,请参见 https://yunfeixie233.github.io/ViGaL/。

https://cdn-uploads.huggingface.co/production/uploads/65f6afa36ea40b9a29dd45ca/DZoykAM43uNQ1ltenx4FI.qt