欧几里得的礼物:通过几何代理任务增强视觉-语言模型中的空间感知和推理能力

发表
Shijie LianShijie Lian 提交
作者: Shijie LianShijie Lian, Changti WuChangti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen

摘要

AI 生成总结
使用 Euclid30K 数据集的几何中心微调,显著提高了多模态大型语言模型在多个基准上的空间推理能力。
空间智能涵盖了一系列丰富的能力,包括可视化和转换形状、心智旋转物体、判断相对位置和包含关系,以及估计数量。然而,它仍然是多模态大型语言模型 (MLLM) 一个关键的未解决挑战。为了弥补这一差距,我们提出将欧几里得几何问题解决作为一种替代任务。具体来说,我们精心构建了一个名为 Euclid30K 的多模态数据集,其中包含约 30,000 个平面和立体几何问题。为了使模型能够从这些几何问题中获取和应用欧几里得原理,我们采用了组相对策略优化 (GRPO) 来微调 Qwen2.5VL 系列和 RoboBrain2.0 系列,启发模型识别形状、计数和关联实体,并使用欧几里得原理进行多步演绎推理。我们的实验表明,由此产生的模型在四个空间推理基准(Super-CLEVR、Omni3DBench、VSI-Bench 和 MindCube)上取得了显著的零样本收益,无需进行任何特定任务的调整。值得注意的是,在 Euclid30K 训练后,所有评估模型的 VSI-Bench 平均准确率从 34.5% 上升到 40.5%,提高了 5.5 个百分点。其中,RoboBrain2.0-Euclid-7B 的准确率为 49.6%,超过了之前的最先进模型 Spatial-MLLM。据我们所知,这是第一个系统性研究表明几何为中心的微调可以赋予视觉语言模型广泛可转移的空间技能。代码和 Euclid30K 数据集可以在 https://zgca-ai4edu.github.io/Euclids_Gift 找到。
查看 arXiv 页面查看 PDF

评论

Shijie LianShijie Lian
论文作者
论文提交者
此评论已隐藏。
Shijie LianShijie Lian
论文作者
论文提交者

image