D2E: 在桌面数据上扩展视觉-动作预训练以迁移到具身AI

发表
Jaeyoon JungJaeyoon Jung 提交
作者: Suhwan ChoiSuwhan Choi, Jaeyoon JungJaeyoon Jung, Haebin SeongHaebin Seong, Minchan KimMinchan Kim, Minyeong Kim, Cho YongjunYongjun Cho, Yoonshik Kim, Yubeen Park, Youngjae Yu, Yunsung LeeYunsung Lee

摘要

AI 生成总结
D2E 框架使用桌面交互预训练具身 AI,在物理操作和导航任务中取得了很高的成功率。
大型语言模型利用互联网规模的文本数据,但具身人工智能 仍然受到物理轨迹收集的巨额成本的限制。 桌面环境——特别是游戏——提供了一个引人注目的替代方案: 它们以规模化的方式提供丰富的传感器-运动交互,同时保持 具身学习所必需的结构化观察-行动耦合。我们 提出了 D2E(Desktop to Embodied AI),一个框架,证明桌面 交互可以作为机器人具身人工智能任务的有效预训练基底。与 先前的工作不同,后者要么局限于特定领域(例如,VPT 用于 Minecraft), 要么保持数据专有(例如,SIMA),D2E 建立了一个从可扩展的桌面数据收集到 具身领域验证转移的完整流程。我们的框架包含三个组件:(1) OWA Toolkit 将多样化的桌面交互统一为标准化格式,压缩率为 152 倍;(2) Generalist-IDM 通过基于时间戳的事件预测,在未见过的游戏中实现强大的零样本泛化能力, 从而实现互联网规模的伪标签;以及 (3) VAPT,它将 桌面预训练的表示转移到物理操纵和导航任务。 使用 1.3K+ 小时的数据(259 小时的人类演示,以及 1K+ 小时的 伪标签游戏),我们在 LIBERO 操纵和 CANVAS 导航基准测试中取得了 96.6% 的总成功率,在 CANVAS 导航基准测试中取得了 83.3% 的成功率。 这验证了数字交互中的传感器-运动原语表现出足够的不变性, 可以有意义地转移到物理具身任务中,将桌面预训练确立为 机器人领域的实用范例。我们将公布所有工作,包括 OWA 工具包、 人类收集和伪标签的数据集,以及 VAPT 训练的模型,网址为 https://worv-ai.github.io/d2e/
查看 arXiv 页面查看 PDF

评论

Jaeyoon JungJaeyoon Jung
论文作者
论文提交者

我们提出了 D2E 🎮→🤖,一个在桌面交互数据上扩展视觉-动作预训练以加速具身AI 🚀 的框架。
通过将普通的游戏和桌面交互转化为训练燃料,D2E 构建了丰富的视觉运动先验,可以从屏幕迁移到机器人。

OWA Toolkit 🖥️ — 一个用于多模态桌面数据(屏幕、键盘、鼠标)的统一录制器+存储格式。
OWA 将原始游戏画面压缩成紧凑的OWAMcap 格式 — 实现了152倍的存储效率,同时保持了时间精度 ⚡。

🧠 Generalist-IDM — 一个通用的逆动力学模型,仅凭时间戳 ⏱️ 即可预测下一个事件令牌
它能够泛化到未见过的游戏,并实现了对1055小时YouTube游戏视频的伪标签,训练数据集远超20款游戏中的259小时人工录制数据 🎮📊。

🔬 VAPT (视觉-动作预训练) — 在我们的1.3K小时数据集上预训练一个1B参数的InternVL3骨干网络,然后迁移到真实世界机器人领域 🦾。

🤖 迁移到具身领域后,D2ELIBERO-manipulation 上实现了 96.6%🔥的成功率,在 CANVAS-navigation 上实现了 83.3%🔥的成功率,展示了从桌面到真实世界任务的强大泛化能力

🌍 D2E 表明桌面级学习可以解锁低成本、高迁移性的具身智能,并实现互联网规模的具身AI预训练,弥合了数字世界和物理世界之间的差距。

📄 论文: https://arxiv.org/abs/2510.05684
💻 项目: https://worv-ai.github.io/d2e/