GPT-4o 在视觉理解方面表现如何?在标准计算机视觉任务上评估多模态基础模型

发表
Niels RoggeNiels Rogge 提交
作者: Rahul Ramachandran, Ali Garjani, Roman Bachmann, Andrei Atanov, Oğuzhan Fatih Kar, Amir Zamir

摘要

多模态基础模型,例如 GPT-4o,最近取得了显著进展,但这些模型在理解视觉方面究竟处于何种水平尚不清楚。在本文中,我们对流行的多模态基础模型(GPT-4o、o4-mini、Gemini 1.5 Pro 和 Gemini 2.0 Flash、Claude 3.5 Sonnet、Qwen2-VL、Llama 3.2)在标准计算机视觉任务(语义分割、目标检测、图像分类、深度和表面法线预测)上的性能进行了基准测试,使用了已建立的数据集(例如 COCO、ImageNet 及其变体等)。 执行此操作的主要挑战是:1) 大多数模型都经过训练以输出文本,无法原生表达多种领域,例如分割或3D几何;以及 2) 许多领先模型是专有的,只能通过API访问,即无法访问权重以进行适配。我们通过提示链将标准视觉任务转换为等效的文本可提示和API兼容任务,以创建标准化基准测试框架来解决这些挑战。 我们观察到:1) 在任何任务中,这些模型都与最先进的专业模型有很大差距。然而,2) 它们是可敬的通用模型;这值得关注,因为它们可能主要是在基于图像-文本的任务上进行训练的。3) 它们在语义任务上的表现明显优于几何任务。4) 尽管提示链技术会影响性能,但更好的模型对提示变化的敏感度较低。5) GPT-4o 在非推理模型中表现最佳,在6项任务中有4项获得第一名,6) 推理模型(例如 o3)在几何任务中表现出改进,以及 7) 对具有原生图像生成功能的模型(如最新的 GPT-4o)的初步分析表明,它们表现出幻觉和空间错位等怪异现象。
查看 arXiv 页面查看 PDF

评论