从另一个角度看:评估 MLLM 中的多视图理解

发表
frogfrog 提交
作者: Chun-Hsiao YehChun-Hsiao Yeh, chenyu wangChenyu Wang, Shengbang Tong, Ta-Ying ChengTa-Ying Cheng, Rouyu Wang, TianzheTianzhe Chu, Yuexiang Zhai, Yubei ChenYubei Chen, Shenghua Gao, Yi Ma

摘要

多视图理解是在不同视点之间协调视觉信息以实现有效导航、操作和 3D 场景理解的能力,是多模态大型语言模型 (MLLM) 作为具身代理使用的根本挑战。虽然最近的 MLLM 在高级推理和规划方面表现出了令人印象深刻的进步,但在面对多视图几何一致性和跨视图对应关系时,它们经常表现不足。为了全面评估 MLLM 在多视图场景推理中的挑战,我们提出了 All-Angles Bench,这是一个包含超过 2,100 个人工精心标注的多视图问答对的基准,涵盖 90 个不同的真实世界场景。我们的六项任务(计数、属性识别、相对距离、相对方向、物体操作和相机姿态估计)专门测试模型在几何对应关系和跨视图一致性对齐信息的能力。我们对 27 个具有代表性的 MLLM(包括 Gemini-2.0-Flash、Claude-3.7-Sonnet 和 GPT-4o)进行了广泛的实验基准测试,并与人类评估者进行比较,结果显示存在巨大的性能差距,表明当前的 MLLM 距离人类水平的熟练程度还差得很远。通过深入分析,我们表明 MLLM 在两个方面尤其表现不佳:(1)部分遮挡视图的跨视图对应关系和(2)建立粗略的相机姿态。这些发现突出了特定领域的改进或嵌入更强多视图感知模块的必要性。我们相信我们的 All-Angles Bench 提供了宝贵的见解,并有助于弥合 MLLM 和人类水平多视图理解之间的差距。项目和基准测试可在 https://danielchyeh.github.io/All-Angles-Bench/ 公开获取。
查看 arXiv 页面查看 PDF

评论

frogfrog
论文提交者
此评论已隐藏。