⏶13
细粒度偏好优化提高VLM的空间推理能力
发表
由
Yifan Shen 提交
作者:
Yifan Shen, Yuanzhe Liu, Jingyuan Zhu,
Xu Cao, Xiaofeng Zhang, Yixiao He, Wenming Ye, James Matthew Rehg,
Ismini Lourentzou

摘要
当前的视觉-语言模型(VLM)在细粒度空间推理方面表现不佳,尤其是在需要多步逻辑和精确空间对齐时。在这项工作中,我们引入了SpatialReasoner-R1,这是一个旨在解决这些限制的视觉-语言推理模型。为了构建高质量的空间推理监督,我们设计了一种多模型蒙特卡洛树搜索(M3CTS)方法,该方法能生成多样化、逻辑一致的长链式思维(LongCoT)推理轨迹。此外,我们提出了细粒度直接偏好优化(fDPO),该方法引入了针对描述性基础和逻辑推理的特定片段偏好粒度,并由一个空间奖励机制指导,该机制根据视觉一致性、空间基础和逻辑连贯性评估候选响应。实验结果表明,fDPO在空间质量任务中比标准DPO平均提高了4.1%,在空间数量任务中获得了9.0%的增益。SpatialReasoner-R1在fDPO的训练下,在SPATIALRGPT-Bench上创造了新的SoTA,在平均准确率上比最强的基线高出9.8%,同时在通用视觉-语言任务上保持了有竞争力的性能。
我们提出了一种新颖的细粒度偏好优化方法,该方法显著提高了视觉-语言模型(VLM)的空间推理能力。我们的方法利用精心设计的偏好数据和训练策略,在不损害通用视觉能力的前提下增强了空间理解。