视觉语言模型能否推断人类凝视方向?一项对照研究

发表
Zory ZhangZory Zhang 提交
作者: Zory ZhangZory Zhang, Pinyuan Feng, Bingyang Wang, Tianwei Zhao, Suyang Yu, Qingying Gao, Hokin Deng, Martin Ziqiao MaZiqiao Ma, Yijiang Li, Dezhi Luo

摘要

凝视参照推理——推断他人正在看什么的能力——是心智理论的关键组成部分,也是人机自然交互的基础。在一项受控研究中,我们使用难度和变异性经过调整的照片评估了111个视觉语言模型(VLM)的这项技能,并与人类参与者(N = 65)的表现进行了比较,使用混合效应模型分析了行为。我们发现,111个VLM中有94个未能表现出比随机猜测更好的结果,而人类则达到了接近最高准确率。VLM甚至对每个选择的响应频率几乎相同。它们是在随机猜测吗?尽管大多数VLM表现不佳,但当我们深入研究其中五个表现优于随机的顶级VLM时,我们发现它们的性能随着任务难度的增加而下降,但对不同的提示和场景对象变化不大。这些行为特征不能通过将它们视为随机猜测者来解释。相反,它们可能结合了启发式和猜测,使得它们的性能受任务难度影响,但对感知变化具有鲁棒性。这表明,VLM缺乏凝视推理能力,尚未成为能够与人类自然交互的技术,但潜力依然存在。
查看 arXiv 页面查看 PDF

评论

Zory ZhangZory Zhang
论文作者
论文提交者

了解某人看向何处是心智理论的关键。我们测试了 111 个 VLM 和 65 个人类,以比较它们的推理能力。我们的对照研究揭示了顶级视觉-语言模型(VLM)与人类之间存在显著的性能差距,同时 VLM 的响应中也存在行为模式,表明它们并非仅仅是猜测。相反,它们可能结合使用启发式方法和猜测,因此其性能受任务难度影响,但对感知变异具有鲁棒性。VLM 可能依赖头部朝向而非眼睛凝视方向,这使得它们对增加眼睛方向几何模糊性的侧视图不那么敏感;然而,这种启发式方法也大大降低了它们的性能。