IQBench:视觉-语言模型有多“聪明”?一项基于人类智商测试的研究

发表
Tan-Hanh PhamTan-Hanh Pham 提交
作者: Tan-Hanh Pham, Phu-Vinh Nguyen, Dang The Hung, Bui Trong Duong, Vu Nguyen Thanh, Chris Ngo, Tri Quang Truong, Truong-Son Hy

摘要

尽管大型视觉-语言模型(VLMs)在广泛的多模态任务中表现出了卓越的性能,但它们在人类智商测试上的真实推理能力仍未得到充分探索。为了推进对VLM流体智力的研究,我们引入了**IQBench**,这是一个旨在评估VLM在标准化视觉智商测试上的新基准。我们专注于评估VLM的推理能力,我们认为这比最终预测的准确性更重要。**我们的基准以视觉为中心,最大限度地减少了对不必要文本内容的依赖**,从而鼓励模型主要从基于图像的信息而非学习到的文本知识中得出答案。为此,我们手动收集并标注了500道视觉智商问题,以**防止训练过程中无意的数据泄露**。与之前主要关注最终答案准确性的工作不同,我们通过评估模型的解释和用于解决每个问题的模式来评估它们的推理能力,同时考虑最终预测的准确性和人工评估。我们的实验表明,不同任务之间存在显著的性能差异,其中`o4-mini`、`gemini-2.5-flash`和`claude-3.7-sonnet`等模型分别达到了0.615、0.578和0.548的最高平均准确率。然而,所有模型在3D空间和字谜推理任务上都表现不佳,凸显了当前VLM通用推理能力的显著局限性。在推理得分方面,`o4-mini`、`gemini-2.5-flash`和`claude-3.7-sonnet`分别达到了0.696、0.586和0.516的最高平均得分。这些结果突出了模型推理过程与其最终答案之间的不一致性,强调了除了最终预测外,评估推理准确性的重要性。
查看 arXiv 页面查看 PDF

评论

Tan-Hanh PhamTan-Hanh Pham
论文提交者

面向 VLM 的 IQBench

IQBench 排行榜

IQBench 数据集

IQBench.jpg

准确率

acc.png

推理能力

reasoning.png