InstructPart:面向任务的部分分割与指令推理

发表
Zifu WanZifu Wan 提交
作者: Zifu WanZifu Wan, Yaqi Xie, Ce Zhang, Zhiqiu Lin, Zihan Wang, Simon Stepputtis, Deva Ramanan, Katia Sycara

摘要

大型多模态基础模型,特别是在语言和视觉领域,极大地推动了各种任务的发展,包括机器人、自动驾驶、信息检索和接地。然而,许多此类模型将物体视为不可分割的整体,忽略了构成它们的组成部分。理解这些组成部分及其相关的“功能性”(affordances)为物体的功能提供了宝贵的见解,这对于执行广泛的任务至关重要。在这项工作中,我们引入了一个新颖的真实世界基准InstructPart,包含手动标注的零件分割注释和面向任务的指令,用于评估当前模型在日常环境中理解和执行零件级别任务的性能。通过我们的实验,我们证明了面向任务的零件分割仍然是一个具有挑战性的问题,即使对于最先进的视觉-语言模型(VLM)也是如此。除了我们的基准,我们还引入了一个简单的基线模型,通过使用我们的数据集进行微调,实现了两倍的性能提升。借助我们的数据集和基准,我们旨在促进面向任务的零件分割研究,并增强VLM在各种领域的适用性,包括机器人、虚拟现实、信息检索和其他相关领域。项目网站:https://zifuwan.github.io/InstructPart/
查看 arXiv 页面查看 PDF

评论

Zifu WanZifu Wan
论文作者
论文提交者

我们引入了 InstructPart,这是一个包含部分分割标注和任务导向指令的真实世界基准,用于评估和改进视觉-语言模型 (VLM) 在理解和执行部分级任务方面的能力。