OmniEAR:对具身任务中代理推理能力的基准测试

发表
Yongliang ShenYongliang Shen 提交
作者: wangzixuanZixuan Wang, Dingming Li, Hongxing Li, Shuo Chen, Yuchen YanYuchen Yan, Wenqi Zhang, Yongliang ShenYongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang

摘要

大型语言模型在抽象推理方面表现出色,但其具身代理推理能力仍有待深入探索。我们提出了OmniEAR,一个全面的框架,用于评估语言模型在具身任务中如何推理物理交互、工具使用和多代理协作。与现有提供预定义工具集或明确协作指令的基准不同,OmniEAR要求代理根据任务需求动态获取能力并自主确定协作策略。通过基于文本的环境表示,我们建模了跨1500个场景(涵盖家庭和工业领域)的连续物理属性和复杂空间关系。我们的系统评估揭示了模型在必须从约束条件进行推理时性能严重下降:虽然在明确指令下实现了85-96%的成功率,但对于工具推理,性能下降到56-85%,对于隐式协作,性能下降到63-85%,复合任务的失败率超过50%。令人惊讶的是,完整的环境信息会降低协作性能,表明模型无法过滤与任务相关的约束。微调显著改善了单代理任务(0.6%到76.3%),但对多代理任务的增益微乎其微(1.5%到5.5%),暴露了根本性的架构限制。这些发现表明,具身推理提出了与现有模型能够解决的问题根本不同的挑战,OmniEAR为评估和推进具身AI系统建立了一个严格的基准。我们的代码和数据包含在补充材料中,并将在接受后开源。
查看 arXiv 页面查看 PDF

评论

Yongliang ShenYongliang Shen
论文作者
论文提交者

GitHub: https://github.com/ZJU-REAL/OmniEmbodied

项目: https://zju-real.github.io/OmniEmbodied/