⏶14
通过在世界中的基础进行空间推理
发表
由
Zekun Qi 提交

作者: Yiming Chen,
Zekun Qi, Wenyao Zhang, Xin Jin, Li Zhang, Peidong Liu

摘要
AI 生成总结
GS-Reasoner 是一种具有双路径池化机制的 3D 大语言模型,无需外部模块即可实现自回归接地和最先进的空间推理。在本文中,我们提出3D视觉基础是空间推理的基石,并引入了Grounded-Spatial Reasoner (GS-Reasoner)来探索有效的空间表示,以弥合两者之间的差距。现有的3D LLM缺乏能够联合捕获语义和几何信息的统一3D表示。这种缺陷体现在基础性能差或过度依赖外部模块,最终阻碍了基础和空间推理的无缝集成。为了解决这个问题,我们提出了一种简单而有效的双路径池化机制,该机制将几何特征与语义和位置线索紧密对齐,构建了一种基于图像块的统一3D表示,该表示能够封装所有必要信息,而不会增加输入token的数量。利用这种整体表示,GS-Reasoner是第一个完全无需外部模块即可实现自回归基础的3D LLM,同时提供与最先进模型相当的性能,为3D空间推理建立了一个统一且自给自足的框架。为了进一步弥合基础和空间推理之间的差距,我们引入了Grounded Chain-of-Thought (GCoT)数据集。该数据集经过精心策划,包含了推理问题中引用的对象的3D边界框注释以及将基础作为解决问题过程核心组成部分的分步推理路径。大量的实验表明,GS-Reasoner在3D视觉基础方面取得了令人印象深刻的结果,从而显著增强了其空间推理能力,实现了最先进的性能。
主页:https://yiming-cc.github.io/gs-reasoner/
代码:https://github.com/WU-CVGL/GS-Reasoner
Huggingface:https://huggingface.co/collections/ymccccc/gs-reasoner-68efc95783fb92bb44269f7a