全身条件的第一人称视频预测

发表
Yutong BaiYutong Bai 提交
作者: Yutong BaiYutong Bai, Danny TranDanny Tran, Amir Bar, Yann LeCun, Trevor Darrell, Jitendra Malik

摘要

我们训练模型以根据过去的视频和由相对3D身体姿态表示的动作,预测以自我为中心的视频(PEVA)。通过以身体关节层级结构化的运动姿态轨迹为条件,我们的模型学习模拟人类的物理动作如何从第一人称视角塑造环境。我们在Nymeria上训练了一个自回归条件扩散Transformer,Nymeria是一个包含真实世界以自我为中心的视频和身体姿态捕捉的大规模数据集。我们进一步设计了一个包含日益复杂任务的分层评估协议,从而能够全面分析模型的具身预测和控制能力。我们的工作代表了首次尝试,从人类视角通过视频预测来解决复杂现实世界环境和具身智能体行为建模的挑战。
查看 arXiv 页面查看 PDF

评论

Yutong BaiYutong Bai
论文作者
论文提交者

https://dannytran123.github.io/PEVA/