SSR:通过基于理由的空间推理增强视觉-语言模型中的深度感知

发表
Siteng HuangSiteng Huang 提交
作者: Yang LiuYang Liu, Ming Ma, Yu_xmXiaomin Yu, Pengxiang Ding, Han Zhao, Mingyang Sun, Siteng Huang, Donglin Wang

摘要

尽管视觉-语言模型 (VLMs) 在多模态任务中取得了令人瞩目的进展,但它们对 RGB 输入的依赖限制了精确的空间理解。现有整合空间线索(如点云或深度)的方法要么需要专门传感器,要么未能有效利用深度信息进行高阶推理。为此,我们提出了一种新颖的空间感知和推理方法,称为 SSR,这是一个将原始深度数据转换为结构化、可解释的文本理由的新框架。这些文本理由作为有意义的中间表示,显著增强了空间推理能力。此外,我们利用知识蒸馏将生成的理由压缩成紧凑的潜在嵌入,这有助于资源高效且即插即用地集成到现有 VLM 中而无需重新训练。为了实现全面评估,我们引入了一个名为 SSR-CoT 的新数据集,这是一个百万级视觉-语言推理数据集,富含中间空间推理标注,并提出了 SSRBench,一个全面的多任务基准。在多个基准上的大量实验表明,SSR 显着提高了深度利用率并增强了空间推理能力,从而推动 VLM 实现更像人类的多模态理解。我们的项目页面位于 <a href="https://yliu-cs.github.io/SSR&quot;&gt;https://yliu-cs.github.io/SSR&lt;/a&gt;
查看 arXiv 页面查看 PDF

评论

Siteng HuangSiteng Huang
论文提交者

项目页面:https://yliu-cs.github.io/SSR/

Github:https://github.com/yliu-cs/SSR