像素、图案,但无诗意:像人类一样看世界

发表
Hongcheng GaoHongcheng Gao 提交
作者: Hongcheng Gao, Zihao Huang, Lin Xu, Jingyi Tang, Xinhao Li, Yue Liu, Haoyang Li, Taihang Hu, Minhua Lin, Xinlong Yang, Ge Wu, Balong Bi, Hongyu Chen, Wentao Zhang

摘要

多模态大语言模型 (MLLM) 实现类人感知和推理仍然是人工智能领域的核心挑战。尽管最近的研究主要集中在增强 MLLM 的推理能力上,但一个基本问题依然存在:多模态大语言模型能否真正像人类一样感知世界?本文将焦点从推理转向感知。我们没有专门构建用于推理的基准,而是引入了图灵眼测试 (TET),这是一个具有挑战性的、面向感知的基准,包含四个诊断任务,用于评估 MLLM 在人类凭直觉处理的合成图像上的表现。我们的发现表明,最先进的 MLLM 在人类看来微不足道的感知任务上表现出灾难性的失败。之前的基准上有效的上下文学习和基于语言骨干网络的训练都未能提高模型在我们任务上的表现,而微调视觉塔则能实现快速适应,这表明我们的基准对视觉塔的泛化能力提出了挑战,而非对语言骨干网络的知识和推理能力构成挑战——这是当前 MLLM 与人类感知之间的一个关键差距。在此版本中,我们发布了 TET 任务的一个代表性子集,并将在未来的工作中引入更多样化的任务和方法来增强视觉泛化能力。
查看 arXiv 页面查看 PDF

评论

Hongcheng GaoHongcheng Gao
论文提交者

项目主页: https://turingeyetest.github.io/

Zhongzhi LiZhongzhi Li

扎实的工作!

yueliu1999yueliu1999

扎实的工作!

huanghuang

扎实的工作!

Hailong QuHailong Qu

扎实的工作!

MIRMIR

关于该主题,拓扑视觉似乎是“按像素”方法的更好替代方案,这可能通过 risper pylib 实现