⏶29
视觉-语言模型中的视角感知推理:通过心理意象模拟
发表
由
Yuseung "Phillip" Lee 提交
作者:
Phillip Y. Lee, Jihyeon Je, Chanho Park, Mikaela Angelina Uy, Leonidas Guibas, Minhyuk Sung
摘要
我们提出了一种通过心理意象模拟在视觉-语言模型 (VLMs) 中进行视角感知推理的框架。视角采择(Perspective-taking),即从不同视角感知环境或情境的能力,是衡量人类级别视觉理解的关键基准,对于环境交互和与自主代理协作至关重要。尽管 VLMs 在空间推理方面取得了进展,但近期研究表明,现代 VLMs 显著缺乏视角感知推理能力,并表现出对自我中心解释的强烈偏见。为了弥合 VLMs 与人类感知之间的差距,我们重点关注心理意象的作用,人类通过抽象的表示感知世界,这有助于视角转换。受此启发,我们提出了一种用于视角感知推理的框架,名为抽象视角变化 (APC),它有效利用视觉基础模型,如目标检测、分割和方向估计,来构建场景抽象并实现视角转换。我们在合成和真实图像基准上进行的实验,与各种 VLMs 相比,证明了我们的框架在视角感知推理方面取得了显著改进,进一步优于微调的空间推理模型和基于新视角合成的方法。
访问我们的项目页面:https://apc-vlm.github.io/ :)
摘要:
我们提出了一个通过心理意象模拟在视觉-语言模型(VLM)中实现视角感知推理的框架。视角采择——从另一个视点感知环境或情况的能力——是衡量人类水平视觉理解的关键基准,对于环境交互和与自主代理的协作至关重要。尽管 VLM 中的空间推理取得了进展,但最近的研究表明,现代 VLM 严重缺乏视角感知推理能力,并表现出强烈的以自我为中心的解释偏差。为了弥合 VLM 与人类感知之间的差距,我们关注心理意象的作用,人类通过抽象的表示来感知世界,这有助于视角的转换。受此启发,我们提出了一个名为抽象视角改变(APC)的视角感知推理框架,它有效利用视觉基础模型,如目标检测、分割和方向估计,来构建场景抽象并实现视角转换。我们通过与各种 VLM 比较,在合成和真实图像基准上进行的实验表明,我们的框架在视角感知推理方面取得了显著改进,进一步超越了微调后的空间推理模型和基于新视图合成的方法。