⏶61
DeepPHY:对具身VLM进行物理推理的基准测试
发表
由
Börje Karlsson 提交

作者:
Xinrun Xu, Pi Bu, Ye Wang,
Börje F. Karlsson, Ziming Wang, Tengtao Song, Qi Zhu, Jun Song, Zhiming Ding, Bo Zheng

摘要
尽管视觉语言模型(VLMs)展现出强大的感知能力和令人印象深刻的视觉推理能力,但它们在复杂、动态环境中对细节的关注和精确的动作规划方面表现不佳,导致性能欠佳。现实世界的任务通常需要复杂的交互、高级空间推理、长期规划和持续的策略完善,这通常需要理解目标场景的物理规则。然而,在现实世界场景中评估这些能力往往成本过高。为了弥合这一差距,我们引入了 DeepPHY,这是一个新颖的基准框架,旨在通过一系列具有挑战性的模拟环境,系统地评估 VLM 对基本物理原理的理解和推理。DeepPHY 集成了不同难度级别的多个物理推理环境,并包含了细粒度的评估指标。我们的评估发现,即使是最先进的 VLM 也难以将描述性物理知识转化为精确、预测性的控制。

DeepPHY 是一个新颖的基准框架,旨在通过一系列具有挑战性的动态模拟环境,系统地评估 VLM 对基本物理原理的理解和推理。快来查看并尝试一下吧!