视觉语言模型中的可解释物理推理和性能分类

发表
Pranav PawarPranav Pawar 提交
作者: Pranav PawarPranav Pawar, Kavish ShahKavish Shah, ByteMeHarder-404Akshat Bhalani, Komal KasatKomal Kasat, DEV MITTALDev Mittal, Hadi GalaHadi Gala, Deepali Patil, Nikita Raichada, Monali Deshmukh

摘要

AI 生成总结
一个新颖的框架评估了视觉语言模型在 2D 物理理解方面的能力,揭示了模型规模和推理能力之间的相关性,并特别强调了抽象空间推理中的挑战。
随着视觉语言模型(VLM)的日益复杂,其执行推理的能力正受到越来越多的审视。虽然它们在许多任务上表现出色,但它们对物理学等基本科学原理的理解仍然是一个未被充分探索的领域。为了反映这些能力的进步,我们引入了一个新颖且易于访问的框架,旨在严格评估VLM对2D物理学的理解。我们的框架包含一个实用的场景生成器,该生成器可以在四个核心领域创建多样化的测试平台,涵盖400多个问题:抛射体运动、碰撞动力学、力学和流体动力学。通过对四个最先进的VLM进行全面评估,我们证明了模型规模与推理能力之间存在强烈的相关性,我们表现最好的模型Qwen2.5-VL-7B取得了0.815的总体得分。我们发现,虽然模型在公式化问题上表现出色,但在需要抽象空间推理的领域却面临显著困难。通过设计这个框架,我们的目标是普及VLM中的科学推理研究,并加深对其能力和局限性的理解。
查看 arXiv 页面查看 PDF

评论

Pranav PawarPranav Pawar
论文作者
论文提交者

项目页面即将添加!

Yury PanikovYury Panikov

谢谢!特别是分类法的部分。

Pranav PawarPranav Pawar
论文作者
论文提交者

不客气!