Jigsaw-R1:基于拼图的规则化视觉强化学习研究

发表
Zifu WangZifu Wang 提交
作者: Zifu WangZifu Wang, Junyi ZhuJunyi Zhu, Bo Tang, Zhiyu Li, Feiyu Xiong, Jiaqian Yu, Matthew B. Blaschko

摘要

将基于规则的强化学习 (RL) 应用于多模态大型语言模型 (MLLM) 带来了独特的挑战,并可能偏离仅文本领域中的发现,尤其对于感知密集型任务。本文对基于规则的视觉RL进行了全面研究,使用拼图作为结构化的实验框架。拼图具有固有的真实性、可调节的难度,并需要复杂的决策,使其成为本研究的理想选择。我们的研究揭示了几个关键发现:首先,我们发现MLLM最初在最简单的拼图上表现接近随机猜测,但通过微调实现了近乎完美的准确性,并能泛化到复杂的、未见过的配置。其次,在拼图上进行训练可以诱导对其他视觉任务的泛化,其有效性与特定的任务配置相关。第三,MLLM可以有或没有明确推理地进行学习和泛化,尽管开源模型通常倾向于直接回答。因此,即使训练用于分步推理,它们在得出最终答案时也可能忽略思考过程。第四,我们观察到复杂的推理模式似乎是预先存在的而非涌现的,其频率随训练和任务难度的增加而增加。最后,我们的结果表明,RL比监督微调 (SFT) 表现出更有效的泛化,并且最初的SFT冷启动阶段可能会阻碍随后的RL优化。尽管这些观察基于拼图,并且可能因其他视觉任务而异,但这项研究为理解基于规则的视觉RL及其在多模态学习中的潜力这一更大的拼图贡献了宝贵的一块。代码可在:https://github.com/zifuwanggg/Jigsaw-R1 获取。
查看 arXiv 页面查看 PDF

评论

Zifu WangZifu Wang
论文作者
论文提交者

代码可在以下地址获取:https://github.com/zifuwanggg/Jigsaw-R1