EmbRACE-3K:复杂环境中的具身推理与行动

发表
Wei HuangWei Huang 提交
作者: Mingxian LinMingxian Lin, Wei Huang, Yitang Li, Chengjie Jiang, Kui Wu, Fangwei Zhong, Shengju Qian, Xin Wang, Xiaojuan Qi

摘要

近来,先进的视觉语言模型(VLM)在被动的、离线的图像和视频理解任务上展现出强大的性能。然而,在需要在线交互和主动场景理解的具身环境中,它们的有效性仍然有限。在此类场景中,智能体以第一人称视角感知环境,每一个动作都会动态地塑造后续的观察结果。即使是像 GPT-4o、Claude 3.5 Sonnet 和 Gemini 2.5 Pro 这样的顶级模型,在开放环境的交互中也表现不佳,在空间推理和长时程规划方面暴露出明显的局限性。为了弥合这一差距,我们推出了 EmRACE-3K 数据集,其中包含超过 3000 个语言指导的任务。这些任务设置在使用虚幻引擎(Unreal Engine)和 UnrealCV-Zoo 框架构建的多样化、照片般逼真的环境中。这些任务涵盖了广泛的具身挑战,包括导航、物体操控和多阶段目标执行。每个任务都以多步轨迹的形式展开,将第一人称视觉观察与高级指令、可执行的动作以及表达智能体每一步意图的自然语言理据配对。我们使用 EmRACE-3K 建立了一个基准,用于从三个关键维度评估 VLM 的具身推理能力:探索、动态空间语义推理和多阶段目标执行。在零样本设置下,所有模型的成功率均低于 20%,这凸显了我们基准所带来的挑战以及当前 VLM 在交互式环境中的局限性。为了展示 EmRACE-3K 的实用性,我们进一步通过监督学习和随后的强化学习对 Qwen2.5-VL-7B 进行了微调。这种方法在所有三个挑战类别中都取得了显著的改进,突显了该数据集在促进具身推理能力发展方面的有效性。
查看 arXiv 页面查看 PDF
EmbRACE-3K:复杂环境中的具身推理与行动

评论

Wei HuangWei Huang
论文提交者

近期的视觉语言模型(VLM)在离线图像和视频理解方面表现出色,但它们在交互式、具身环境中的性能仍然有限。在闭环设置中,智能体以第一人称视角行动,每个决策都会改变未来的观测结果。即使是像 GPT-4o、Claude 3.5 Sonnet 和 Gemini 2.5 Pro 这样的领先模型,在空间推理和长远规划方面也面临挑战。我们推出了 EmbRACE-3K,这是一个包含超过 3,000 个语言引导任务的数据集,这些任务设置在多样化的虚幻引擎(Unreal Engine)环境中。每个任务都包含多个步骤,具有自我中心视角、高级指令、具身行动和自然语言解释。我们针对 VLM 的三项核心技能进行了基准测试:探索、动态空间语义推理和多阶段目标执行。在零样本测试中,所有模型的成功率都低于 20%,显示出明显的改进空间。通过监督学习和强化学习对 Qwen2.5-VL-7B 进行微调,在所有任务类型上都取得了一致的性能提升,这证明了 EmbRACE-3K 在发展具身智能方面的价值。

Mingxian LinMingxian Lin
论文作者
🚀 新数据集发布:EmbRACE-3K 🌍🧠

最近的视觉-语言模型(VLMs),如 GPT-4oClaude 3.5Gemini 2.5,在静态视觉任务中表现出色,但在闭环具身推理中却面临挑战,因为在该场景中,动作直接影响未来的观察。

我们推出了 EmbRACE-3K,一个包含超过 3,000 个多步骤、语言引导任务的数据集,这些任务设置在照片级真实的虚幻引擎环境中。

每个任务步骤包括:

  • 👁️ 第一人称视角视觉观察

  • 🗒️ 高级自然语言指令

  • 🧭 已落地的动作

  • 💬 分步自然语言推理理由

我们对三项核心推理技能进行了基准测试:

  • 🧭 探索

  • 🧠 动态空间语义推理

  • 🎯 多阶段目标执行

领先的 VLM 零样本性能仍低于 20%,凸显了这项挑战。

通过监督学习和强化学习对 Qwen2.5-VL-7B 进行微调,在所有类别中均取得了持续提升。

📄 论文: arxiv.org/pdf/2507.10548

💻 代码: github.com/mxllc/EmbRACE-3K

🌐 项目页面: mxllc.github.io/EmbRACE-3K


🧠 让我们一起拓展具身智能的边界。

Mingxian LinMingxian Lin
论文作者
🔁 逐步闭环推理

此演示展示了经过微调的 Qwen2.5-VL-7B 智能体如何在闭环设置中,在第一人称视角感知和基于语言的推理引导下,逐步进行推理和行动。

qwen_ft_10.gif

Mingxian LinMingxian Lin
论文作者
📊 数据集概述

EmbRAC-3K 的概述,该数据集包含 3.1k 个任务和 26k 个决策步骤,涵盖了多样化的环境。任务涉及多步骤的落地推理和感知决策。

teaser.png

Mingxian LinMingxian Lin
论文作者
🛠 数据集构建流程

数据集构建分为四个阶段:

  1. 采样多样化的 6 自由度第一人称视角

  2. 使用 Gemini 生成任务指令

  3. 收集高质量的人类演示

  4. 为每个动作标注步骤级别推理理由

pipeline.png