STAR-R1:通过强化多模态大语言模型实现空间变换推理

发表
Zongyang MaZongyang Ma 提交
作者: lzzZongzhao Li, Zongyang MaZongyang Ma, Mingze Li, Songyou LiSongyou Li, Yu Rong, Tingyang XuTingyang Xu, Ziqi Zhang, Deli Zhao, Wenbing Huang

摘要

多模态大型语言模型 (MLLMs) 在各种任务中展现出了卓越的能力,但在空间推理方面显著落后于人类。我们通过转换驱动视觉推理 (TVR) 来研究这一差距,TVR 是一项具有挑战性的任务,需要在不同视角下的图像之间识别对象转换。传统的监督微调 (SFT) 未能生成跨视角设定下连贯的推理路径,而稀疏奖励强化学习 (RL) 存在探索效率低下和收敛缓慢的问题。为了解决这些局限性,我们提出了 STAR-R1,一个新颖的框架,它集成了单阶段强化学习范式并结合了为 TVR 量身定制的细粒度奖励机制。具体而言,STAR-R1 会奖励部分正确性,同时惩罚过度枚举和被动不作为,从而实现了高效探索和精确推理。全面评估表明,STAR-R1 在所有 11 项指标上都取得了最先进的性能,在跨视角场景中优于 SFT 23%。进一步分析揭示了 STAR-R1 的拟人化行为,并强调了其比较所有对象的独特能力,以提高空间推理能力。我们的工作为推进 MLLMs 和推理模型的研究提供了重要见解。代码、模型权重和数据将在 https://github.com/zongzhao23/STAR-R1 公开可用。
查看 arXiv 页面查看 PDF

评论

Zongyang MaZongyang Ma
论文作者
论文提交者

📖论文 多模态大型语言模型 (MLLMs) 在各种任务中展现了卓越的能力,但在空间推理方面却显著落后于人类。我们通过转换驱动视觉推理 (TVR) 任务来探究这一差距,这项具有挑战性的任务要求在不同视角下识别跨图像的物体转换。传统的监督微调 (SFT) 在跨视角设置中未能生成连贯的推理路径,而稀疏奖励强化学习 (RL) 则面临探索效率低下和收敛缓慢的问题。为了解决这些局限性,我们提出了 STAR-R1,一个新颖的框架,它将单阶段 RL 范式与为 TVR 量身定制的细粒度奖励机制相结合。具体而言,STAR-R1 奖励部分正确性,同时惩罚过度枚举和被动不行动,从而实现高效探索和精确推理。全面的评估表明,STAR-R1 在所有 11 项指标上均取得了最先进的性能,在跨视角场景中表现优于 SFT 达 23%。进一步分析揭示了 STAR-R1 的类人行为,并强调了其通过比较所有物体来改进空间推理的独特能力。我们的工作为推进 MLLMs 和推理模型的研究提供了重要见解。代码、模型权重和数据将在 https://github.com/zongzhao23/STAR-R1 公开可用。