MLLMs能指引我回家吗?一项基于交通地图的细粒度视觉推理基准研究

发表
Sicheng FengSicheng Feng 提交
作者: Sicheng FengSicheng Feng, Song WangSong Wang, Shuyi OuyangShuyi Ouyang, Lingdong KongLingdong Kong, Zikai Song, Jianke Zhu, Huan WangHuan Wang, WangxinchaoXinchao Wang

摘要

多模态大型语言模型 (MLLM) 近期在视觉任务中取得了显著进展,包括语义场景理解和文本图像对齐,推理变体增强了涉及数学和逻辑的复杂任务的性能。然而,它们在涉及细粒度视觉理解的推理任务中的能力仍未得到充分评估。为了弥补这一空白,我们引入了 ReasonMap,这是一个旨在评估 MLLM 细粒度视觉理解和空间推理能力的基准。ReasonMap 包含来自 13 个国家 30 个城市的高分辨率交通地图,并包括涵盖两种问题类型和三个模板的 1,008 对问答。此外,我们设计了一个两级评估流程,以正确评估答案的正确性和质量。对 15 个流行的 MLLM(包括基础模型和推理变体)进行的全面评估揭示了一个反直觉的模式:在开源模型中,基础模型的表现优于推理变体,而在闭源模型中观察到了相反的趋势。此外,当视觉输入被遮蔽时,性能通常会下降,这表明虽然 MLLM 可以利用先验知识来回答某些问题,但细粒度视觉推理任务仍然需要真正的视觉感知才能获得良好的性能。我们的基准研究为视觉推理提供了新的见解,并有助于研究开源模型和闭源模型之间的差距。
查看 arXiv 页面查看 PDF

评论

Sicheng FengSicheng Feng
论文作者
论文提交者

多模态大型语言模型 (MLLMs) 近期在视觉任务上取得了显著进展,包括语义场景理解和文本-图像对齐,其中推理变体增强了在涉及数学和逻辑的复杂任务上的性能。然而,它们在涉及细粒度视觉理解的推理任务方面的能力仍未得到充分评估。为了弥补这一差距,我们引入了 ReasonMap,一个旨在评估 MLLMs 细粒度视觉理解和空间推理能力的基准。ReasonMap 包含来自 13 个国家的 30 个城市的高分辨率交通地图,并包含 1,008 对问答对,涵盖两种问题类型和三个模板。此外,我们设计了一个两级评估流程,以准确评估答案的正确性和质量。对 15 个流行的 MLLMs(包括基础和推理变体)的全面评估揭示了一个反直觉的模式:在开源模型中,基础模型表现优于推理模型,而在闭源模型中观察到相反的趋势。此外,当视觉输入被遮蔽时,性能通常会下降,这表明虽然 MLLMs 可以利用先验知识回答一些问题,但细粒度视觉推理任务仍然需要真正的视觉感知才能获得出色表现。我们的基准研究为视觉推理提供了新的见解,并有助于研究开源模型和闭源模型之间的差距。

Sicheng FengSicheng Feng
论文作者
论文提交者

这里有一些额外的快速链接。让我们一起推动视觉推理的前沿! 数据集:https://huggingface.co/datasets/FSCCS/ReasonMap X:https://x.com/si_feng32704/status/1927186378900533309