V-JEPA 2:自监督视频模型实现理解、预测和规划

发表
Koustuv SinhaKoustuv Sinha 提交
作者: Mido Assran, Adrien Bardes, David Fan, Quentin Garrido, Russell Howes, Mojtaba, Komeili, Matthew Muckley, Ammar Rizvi, Claire Roberts, Koustuv SinhaKoustuv Sinha, Artem Zholus, Sergio Arnaud, Abha Gejji, Ada Martin, Francois Robert Hogan, Daniel Dugas, Piotr Bojanowski, Vasil Khalidov, Patrick Labatut, Francisco Massa, Marc Szafraniec, Kapil Krishnakumar, Yong Li, Xiaodong Ma, Sarath Chandar, Franziska Meier, Yann LeCun, Michael Rabbat, Nicolas Ballas

摘要

现代人工智能面临的一个主要挑战是学习理解世界,并通过观察来学习行动。本文探索了一种自监督方法,该方法将互联网规模的视频数据与少量交互数据(机器人轨迹)相结合,以开发能够理解、预测和规划物理世界的模型。我们首先在包含超过100万小时互联网视频的视频和图像数据集上,预训练了一个无动作的联合嵌入预测架构V-JEPA 2。V-JEPA 2在动作理解方面取得了出色的性能(Something-Something v2上达到77.3的top-1准确率),并在人类动作预测方面达到了最先进的性能(Epic-Kitchens-100上达到39.7的recall-at-5),超越了之前针对特定任务的模型。此外,在将V-JEPA 2与大型语言模型对齐后,我们展示了在80亿参数规模下,多个视频问答任务上达到最先进的性能(例如,PerceptionTest上达到84.0,TempCompass上达到76.9)。最后,我们展示了如何通过使用Droid数据集中不到62小时的未标记机器人视频,对潜在动作条件世界模型V-JEPA 2-AC进行后期训练,将自监督学习应用于机器人规划任务。我们将V-JEPA 2-AC零样本部署到两个不同实验室的Franka机械臂上,并实现了使用图像目标进行规划来拾取和放置物体。值得注意的是,这无需从这些环境中的机器人收集任何数据,也无需任何特定任务的训练或奖励。这项工作展示了如何通过从网络规模数据和少量机器人交互数据中进行自监督学习,生成一个能够在物理世界中进行规划的世界模型。
查看 arXiv 页面查看 PDF

评论

Koustuv SinhaKoustuv Sinha
论文作者
论文提交者

来自Meta AI (FAIR) 的前沿视频编码器