⏶2
朝上吗?通过细粒度多轴感知任务解耦多模态大模型的方向理解
发表
由
Keanu Nichols 提交
作者:
Keanu Nichols,
Nazia Tasnim, Yan Yuting, Nicholas Ikechukwu, Elva Zou, Deepti Ghadiyaram, Bryan Plummer

摘要
理解物体方向是视觉感知中的一个基础挑战,对机器人操作和增强现实等应用至关重要。当前的视觉-语言基准未能独立评估此能力,常常将其与位置关系和一般场景理解混淆。我们引入了 DORI (Discriminative Orientation Reasoning Intelligence),一个全面的基准,将物体方向感知确立为主要的评估目标。DORI 评估方向理解的四个维度:正面对齐、旋转变换、相对方向关系和规范方向理解。通过精心策划来自 11 个数据集、涵盖 67 个物体类别、跨越合成和现实世界场景的任务,DORI 提供了关于多模态系统如何理解物体方向的洞察。我们对 15 个最先进的视觉-语言模型的评估揭示了关键的局限性:即使是最好的模型在粗粒度任务上的准确率也仅为 54.2%,在细粒度方向判断上仅为 33.0%,对于需要参考系转换或复合旋转的任务,性能更是下降。这些发现表明需要专门的方向表示机制,因为模型在执行精确角度估计、跨视角跟踪方向变化以及理解复合旋转方面表现出系统性缺陷——这暗示了它们内部 3D 空间表示的局限性。作为第一个专门为多模态系统中的方向感知设计的诊断框架,DORI 为改进物理环境中的机器人控制、3D 场景重建和人机交互提供了启示。DORI 数据:https://huggingface.co/datasets/appledora/DORI-Benchmark
数据集: https://huggingface.co/datasets/appledora/DORI-Benchmark