3D-R1:增强 3D 视觉语言模型中的推理能力以实现统一场景理解

发表
Zeyu ZhangZeyu Zhang 提交
作者: Ting Huang, Zeyu ZhangZeyu Zhang, Hao Tang

摘要

大型视觉语言模型(VLM)在2D视觉理解任务中取得了显著进展,这激发了将这些能力扩展到3D场景理解的兴趣。然而,由于高质量空间数据的限制以及视点假设的静态性,当前的3D VLM通常在鲁棒推理和泛化方面存在困难。为应对这些挑战,我们提出了3D-R1,这是一个旨在增强3D VLM推理能力的基础模型。具体来说,我们首先利用现有的3D-VL数据集和基于Gemini 2.5 Pro的数据引擎,构建了一个名为Scene-30K的高质量合成数据集,其中包含思维链(CoT)。该数据集作为3D-R1的冷启动初始化数据。此外,我们在强化学习训练过程中利用了GRPO等强化学习从人类反馈(RLHF)策略来增强推理能力,并引入了三个奖励函数:感知奖励、语义相似性奖励和格式奖励,以保持检测准确性和答案的语义精确度。此外,我们引入了一种动态视图选择策略,该策略能自适应地为3D场景理解选择信息量最丰富的视角。大量实验表明,3D-R1在各种3D场景基准测试中平均提升了10%,突显了其在增强3D场景理解中推理和泛化能力的有效性。代码:https://github.com/AIGeeksGroup/3D-R1。网站:https://aigeeksgroup.github.io/3D-R1
查看 arXiv 页面查看 PDF

评论

Zeyu ZhangZeyu Zhang
论文作者
论文提交者

🚀 刚刚发布了我们全新的开源3D基础模型3D-R1!

3D-R1旨在通过强化学习全面增强场景理解。整个项目现已完全开源。