ColorBench: VLMs 能否看到和理解多彩的世界?一个用于颜色感知、推理和鲁棒性的综合基准

04月10日发表
04月17日由 Tianyi ZhouTianyi Zhou 提交
作者: Yijun Liang, Ming Li, Chenrui FanChenrui Fan, Ziyue Li, Dang Nguyen, Kwesi CobbinaKwesi Cobbina, Shweta BhardwajShweta Bhardwaj, JiuhaiChenJiuhai Chen, Fuxiao Liu, Tianyi ZhouTianyi Zhou

摘要

颜色在人类感知中起着重要的作用,通常在视觉推理中提供关键线索。然而,目前尚不清楚视觉语言模型 (VLMs) 是否以及如何像人类一样感知、理解和利用颜色。本文介绍了 ColorBench,这是一个创新的基准,经过精心设计,旨在评估 VLM 在颜色理解方面的能力,包括颜色感知、推理和鲁棒性。通过策划一套多样化的测试场景,并以实际应用为基础,ColorBench 评估了这些模型如何感知颜色,从基于颜色的线索中推断含义,以及在不同的颜色转换下保持一致的性能。通过对 32 个具有不同语言模型和视觉编码器的 VLM 进行广泛评估,我们的论文揭示了一些未被发现的发现:(i)缩放定律(更大的模型更好)仍然适用于 ColorBench,而语言模型比视觉编码器起着更重要的作用。(ii)然而,模型之间的性能差距相对较小,表明现有 VLM 在很大程度上忽略了颜色理解。(iii)CoT 推理提高了颜色理解的准确性和鲁棒性,尽管它们是以视觉为中心的任务。(iv)颜色线索确实被 ColorBench 上的 VLM 利用,但它们也可能在某些任务中误导模型。这些发现突显了当前 VLM 的关键局限性,并强调了增强颜色理解的必要性。我们的 ColorBench 可以作为推动多模态人工智能人类水平颜色理解研究的基础工具。
查看 arXiv 页面查看 PDF

评论

Tianyi ZhouTianyi Zhou
论文作者
论文提交者

Screenshot 2025-04-16 at 10.27.35 PM.png

Tianyi ZhouTianyi Zhou
论文作者
论文提交者

Screenshot 2025-04-16 at 10.27.51 PM.png

Tianyi ZhouTianyi Zhou
论文作者
论文提交者

Screenshot 2025-04-16 at 10.28.06 PM.png