IR3D-Bench: 基于智能体式逆渲染评估视觉-语言模型的场景理解能力

发表
Adina YakefuAdina Yakefu 提交
作者: Liu HengyuParker Liu, Chenxin Li, Zhengxin Li, Yipeng Wu, Wuyang Li, Zhiqin Yang, Zhenyuan Zhang, Yunlong Lin, Sirui Han, Brandon Y. Feng

摘要

视觉语言模型(VLM)在描述性任务中表现出色,但它们是否真正从视觉观察中理解场景仍不确定。我们引入了IR3D-Bench,这是一个通过主动创建而非被动识别来挑战VLM展示理解能力的基准。基于分析-综合范式,IR3D-Bench要求视觉语言代理(VLA)主动使用编程和渲染工具来重建输入图像的底层3D结构,通过工具使用实现代理逆渲染。这种“通过创建来理解”的方法探测了VLA的工具使用生成能力,超越了传统场景理解基准所测量的描述或对话能力。我们提供了一套全面的指标来评估几何精度、空间关系、外观属性和整体合理性。对由各种最先进VLM驱动的代理逆渲染进行的初步实验突出了当前的局限性,特别是在视觉精度而非基本工具使用方面。IR3D-Bench,包括数据和评估协议,已发布以促进对使用工具的VLA进行系统研究和开发,从而实现通过创建来真正理解场景。
查看 arXiv 页面查看 PDF
IR3D-Bench: 基于智能体式逆渲染评估视觉-语言模型的场景理解能力

评论

Adina YakefuAdina Yakefu
论文提交者

IR3D-Bench:以具身逆向渲染评估视觉-语言模型的场景理解能力