⏶31

EmbRACE-3K：复杂环境中的具身推理与行动

07月14日发表

07月15日由 Wei Huang 提交

作者: Mingxian Lin, Wei Huang, Yitang Li, Chengjie Jiang, Kui Wu, Fangwei Zhong, Shengju Qian, Xin Wang, Xiaojuan Qi

摘要

近来，先进的视觉语言模型（VLM）在被动的、离线的图像和视频理解任务上展现出强大的性能。然而，在需要在线交互和主动场景理解的具身环境中，它们的有效性仍然有限。在此类场景中，智能体以第一人称视角感知环境，每一个动作都会动态地塑造后续的观察结果。即使是像 GPT-4o、Claude 3.5 Sonnet 和 Gemini 2.5 Pro 这样的顶级模型，在开放环境的交互中也表现不佳，在空间推理和长时程规划方面暴露出明显的局限性。为了弥合这一差距，我们推出了 EmRACE-3K 数据集，其中包含超过 3000 个语言指导的任务。这些任务设置在使用虚幻引擎（Unreal Engine）和 UnrealCV-Zoo 框架构建的多样化、照片般逼真的环境中。这些任务涵盖了广泛的具身挑战，包括导航、物体操控和多阶段目标执行。每个任务都以多步轨迹的形式展开，将第一人称视觉观察与高级指令、可执行的动作以及表达智能体每一步意图的自然语言理据配对。我们使用 EmRACE-3K 建立了一个基准，用于从三个关键维度评估 VLM 的具身推理能力：探索、动态空间语义推理和多阶段目标执行。在零样本设置下，所有模型的成功率均低于 20%，这凸显了我们基准所带来的挑战以及当前 VLM 在交互式环境中的局限性。为了展示 EmRACE-3K 的实用性，我们进一步通过监督学习和随后的强化学习对 Qwen2.5-VL-7B 进行了微调。这种方法在所有三个挑战类别中都取得了显著的改进，突显了该数据集在促进具身推理能力发展方面的有效性。

查看 arXiv 页面查看 PDF

Wei Huang

论文提交者

近期的视觉语言模型（VLM）在离线图像和视频理解方面表现出色，但它们在交互式、具身环境中的性能仍然有限。在闭环设置中，智能体以第一人称视角行动，每个决策都会改变未来的观测结果。即使是像 GPT-4o、Claude 3.5 Sonnet 和 Gemini 2.5 Pro 这样的领先模型，在空间推理和长远规划方面也面临挑战。我们推出了 EmbRACE-3K，这是一个包含超过 3,000 个语言引导任务的数据集，这些任务设置在多样化的虚幻引擎（Unreal Engine）环境中。每个任务都包含多个步骤，具有自我中心视角、高级指令、具身行动和自然语言解释。我们针对 VLM 的三项核心技能进行了基准测试：探索、动态空间语义推理和多阶段目标执行。在零样本测试中，所有模型的成功率都低于 20%，显示出明显的改进空间。通过监督学习和强化学习对 Qwen2.5-VL-7B 进行微调，在所有任务类型上都取得了一致的性能提升，这证明了 EmbRACE-3K 在发展具身智能方面的价值。

Mingxian Lin

论文作者

🚀 新数据集发布：EmbRACE-3K 🌍🧠

最近的视觉-语言模型（VLMs），如 GPT-4o、Claude 3.5 和 Gemini 2.5，在静态视觉任务中表现出色，但在闭环具身推理中却面临挑战，因为在该场景中，动作直接影响未来的观察。

我们推出了 EmbRACE-3K，一个包含超过 3,000 个多步骤、语言引导任务的数据集，这些任务设置在照片级真实的虚幻引擎环境中。

每个任务步骤包括：

👁️ 第一人称视角视觉观察
🗒️ 高级自然语言指令
🧭 已落地的动作
💬 分步自然语言推理理由

我们对三项核心推理技能进行了基准测试：

🧭 探索
🧠 动态空间语义推理
🎯 多阶段目标执行

领先的 VLM 零样本性能仍低于 20%，凸显了这项挑战。

通过监督学习和强化学习对 Qwen2.5-VL-7B 进行微调，在所有类别中均取得了持续提升。

📄 论文: arxiv.org/pdf/2507.10548

💻 代码: github.com/mxllc/EmbRACE-3K

🌐 项目页面: mxllc.github.io/EmbRACE-3K

🧠 让我们一起拓展具身智能的边界。

Mingxian Lin

论文作者

🔁 逐步闭环推理

此演示展示了经过微调的 Qwen2.5-VL-7B 智能体如何在闭环设置中，在第一人称视角感知和基于语言的推理引导下，逐步进行推理和行动。

Mingxian Lin

论文作者

📊 数据集概述

EmbRAC-3K 的概述，该数据集包含 3.1k 个任务和 26k 个决策步骤，涵盖了多样化的环境。任务涉及多步骤的落地推理和感知决策。

Mingxian Lin

论文作者

🛠 数据集构建流程

数据集构建分为四个阶段：

采样多样化的 6 自由度第一人称视角
使用 Gemini 生成任务指令
收集高质量的人类演示
为每个动作标注步骤级别推理理由

EmbRACE-3K：复杂环境中的具身推理与行动

摘要

评论