⏶133
D2E: 在桌面数据上扩展视觉-动作预训练以迁移到具身AI
发表
由
Jaeyoon Jung 提交
作者:
Suwhan Choi,
Jaeyoon Jung,
Haebin Seong,
Minchan Kim, Minyeong Kim,
Yongjun Cho, Yoonshik Kim, Yubeen Park, Youngjae Yu,
Yunsung Lee
摘要
AI 生成总结
D2E 框架使用桌面交互预训练具身 AI,在物理操作和导航任务中取得了很高的成功率。大型语言模型利用互联网规模的文本数据,但具身人工智能
仍然受到物理轨迹收集的巨额成本的限制。
桌面环境——特别是游戏——提供了一个引人注目的替代方案:
它们以规模化的方式提供丰富的传感器-运动交互,同时保持
具身学习所必需的结构化观察-行动耦合。我们
提出了 D2E(Desktop to Embodied AI),一个框架,证明桌面
交互可以作为机器人具身人工智能任务的有效预训练基底。与
先前的工作不同,后者要么局限于特定领域(例如,VPT 用于 Minecraft),
要么保持数据专有(例如,SIMA),D2E 建立了一个从可扩展的桌面数据收集到
具身领域验证转移的完整流程。我们的框架包含三个组件:(1) OWA Toolkit
将多样化的桌面交互统一为标准化格式,压缩率为 152 倍;(2) Generalist-IDM
通过基于时间戳的事件预测,在未见过的游戏中实现强大的零样本泛化能力,
从而实现互联网规模的伪标签;以及 (3) VAPT,它将
桌面预训练的表示转移到物理操纵和导航任务。
使用 1.3K+ 小时的数据(259 小时的人类演示,以及 1K+ 小时的
伪标签游戏),我们在 LIBERO 操纵和 CANVAS 导航基准测试中取得了 96.6%
的总成功率,在 CANVAS 导航基准测试中取得了 83.3% 的成功率。
这验证了数字交互中的传感器-运动原语表现出足够的不变性,
可以有意义地转移到物理具身任务中,将桌面预训练确立为
机器人领域的实用范例。我们将公布所有工作,包括 OWA 工具包、
人类收集和伪标签的数据集,以及 VAPT 训练的模型,网址为
https://worv-ai.github.io/d2e/
我们提出了 D2E 🎮→🤖,一个在桌面交互数据上扩展视觉-动作预训练以加速具身AI 🚀 的框架。
通过将普通的游戏和桌面交互转化为训练燃料,D2E 构建了丰富的视觉运动先验,可以从屏幕迁移到机器人。
✨ OWA Toolkit 🖥️ — 一个用于多模态桌面数据(屏幕、键盘、鼠标)的统一录制器+存储格式。
OWA 将原始游戏画面压缩成紧凑的OWAMcap 格式 — 实现了152倍的存储效率,同时保持了时间精度 ⚡。
🧠 Generalist-IDM — 一个通用的逆动力学模型,仅凭时间戳 ⏱️ 即可预测下一个事件令牌。
它能够泛化到未见过的游戏,并实现了对1055小时YouTube游戏视频的伪标签,训练数据集远超20款游戏中的259小时人工录制数据 🎮📊。
🔬 VAPT (视觉-动作预训练) — 在我们的1.3K小时数据集上预训练一个1B参数的InternVL3骨干网络,然后迁移到真实世界机器人领域 🦾。
🤖 迁移到具身领域后,D2E 在 LIBERO-manipulation 上实现了 96.6%🔥的成功率,在 CANVAS-navigation 上实现了 83.3%🔥的成功率,展示了从桌面到真实世界任务的强大泛化能力。
🌍 D2E 表明桌面级学习可以解锁低成本、高迁移性的具身智能,并实现互联网规模的具身AI预训练,弥合了数字世界和物理世界之间的差距。
📄 论文: https://arxiv.org/abs/2510.05684
💻 项目: https://worv-ai.github.io/d2e/