⏶44
BEAR:为原子具身能力而设计的模态多语言模型基准测试与增强
发表
由
yu 提交
作者:
Yu Qi,
Haibo Zhao, Ziyu Guo,
Siyuan Ma,
Ziyan Chen,
Yaokun Han, Renrui Zhang, Zitiantao Lin, Shiji Xin,
Yijian Huang,
Kai Cheng, Peiheng Wang,
Jiazheng Liu,
Jiayi Zhang, Yizhe Zhu, Wenqing Wang, Yiran Qin, Xupeng Zhu, Haojie Huang, Lawson L. S. Wong



摘要
AI 生成总结
BEAR 是一个全面的基准测试,用于评估多模态大型语言模型的具身能力,而 BEAR-Agent 通过集成预训练的视觉模型来增强这些模型,从而提高了它们在各种任务上的性能。具身能力是指智能体感知、理解和与物理世界交互的一系列基本能力。虽然多模态大语言模型(MLLMs)作为具身智能体展现出巨大潜力,但对其具身能力的全面和系统性评估仍处于探索阶段,因为现有的基准主要关注特定领域,如规划或空间理解。为了弥合这一差距,我们引入了BEAR,一个全面细致的基准,用于评估MLLMs在原子性具身能力上的表现。BEAR包含跨越6个类别、14个领域的4,469个交错的图像-视频-文本条目,涵盖了从低级指向、轨迹理解、空间推理到高级规划的任务。对20个代表性MLLMs的广泛评估结果揭示了它们在所有具身能力领域中普遍存在的局限性。为了解决这一不足,我们提出了BEAR-Agent,一个多模态对话式智能体,它集成了预训练视觉模型,以增强MLLMs的感知、3D理解和规划能力。它在BEAR上显著提升了MLLMs在各种具身能力上的表现,在GPT-5上实现了9.12%的绝对增幅和17.5%的相对改进。此外,我们的实验表明,提高MLLMs的具身能力可以使模拟环境中的具身任务受益。项目网站:https://bear-official66.github.io/
🔥具身智能体是否需要感知、推理并与环境互动?
❓您想了解多模态大语言模型在具身能力方面的表现如何吗?🧠
我们提出了BEAR🐻!BEAR是首个专注于原子化具身能力的多模态大语言模型基准!🔥🔥🔥
它包含6个类别下的14项技能,以及4,469个交错的问答对!
🔍我们对20个代表性语言模型的结果表明,多模态大语言模型在具身能力方面存在普遍的局限性!我们还提供了详细的失败分析,以帮助改进模型!😈
为了进一步提升语言模型在具身能力方面的表现,我们提出了BEAR-Agent🤖,一个多模态的对话式智能体🪄✨🛸,以提升模型在BEAR基准上的零样本能力!
我们将在GitHub页面上发布我们的代码⌛️⚽️,并会在上面更新更多结果!🙏