⏶8
STAR-R1:通过强化多模态大语言模型实现空间变换推理
发表
由
Zongyang Ma 提交
作者:
Zongzhao Li,
Zongyang Ma, Mingze Li,
Songyou Li, Yu Rong,
Tingyang Xu, Ziqi Zhang, Deli Zhao, Wenbing Huang

摘要
多模态大型语言模型 (MLLMs) 在各种任务中展现出了卓越的能力,但在空间推理方面显著落后于人类。我们通过转换驱动视觉推理 (TVR) 来研究这一差距,TVR 是一项具有挑战性的任务,需要在不同视角下的图像之间识别对象转换。传统的监督微调 (SFT) 未能生成跨视角设定下连贯的推理路径,而稀疏奖励强化学习 (RL) 存在探索效率低下和收敛缓慢的问题。为了解决这些局限性,我们提出了 STAR-R1,一个新颖的框架,它集成了单阶段强化学习范式并结合了为 TVR 量身定制的细粒度奖励机制。具体而言,STAR-R1 会奖励部分正确性,同时惩罚过度枚举和被动不作为,从而实现了高效探索和精确推理。全面评估表明,STAR-R1 在所有 11 项指标上都取得了最先进的性能,在跨视角场景中优于 SFT 23%。进一步分析揭示了 STAR-R1 的拟人化行为,并强调了其比较所有对象的独特能力,以提高空间推理能力。我们的工作为推进 MLLMs 和推理模型的研究提供了重要见解。代码、模型权重和数据将在 https://github.com/zongzhao23/STAR-R1 公开可用。
📖论文 多模态大型语言模型 (MLLMs) 在各种任务中展现了卓越的能力,但在空间推理方面却显著落后于人类。我们通过转换驱动视觉推理 (TVR) 任务来探究这一差距,这项具有挑战性的任务要求在不同视角下识别跨图像的物体转换。传统的监督微调 (SFT) 在跨视角设置中未能生成连贯的推理路径,而稀疏奖励强化学习 (RL) 则面临探索效率低下和收敛缓慢的问题。为了解决这些局限性,我们提出了 STAR-R1,一个新颖的框架,它将单阶段 RL 范式与为 TVR 量身定制的细粒度奖励机制相结合。具体而言,STAR-R1 奖励部分正确性,同时惩罚过度枚举和被动不行动,从而实现高效探索和精确推理。全面的评估表明,STAR-R1 在所有 11 项指标上均取得了最先进的性能,在跨视角场景中表现优于 SFT 达 23%。进一步分析揭示了 STAR-R1 的类人行为,并强调了其通过比较所有物体来改进空间推理的独特能力。我们的工作为推进 MLLMs 和推理模型的研究提供了重要见解。代码、模型权重和数据将在 https://github.com/zongzhao23/STAR-R1 公开可用。