⏶11
力提示:视频生成模型可以学习和泛化基于物理的控制信号
发表
由
Nate Gillman 提交
作者: Nate Gillman, Charles Herrmann, Michael Freeman, Daksh Aggarwal,
Evan Luo, Deqing Sun, Chen Sun

摘要
视频生成模型的最新进展激发了人们对能够模拟真实环境的世界模型的兴趣。虽然导航已被充分探索,但模仿真实世界力量的物理意义上的交互作用在很大程度上仍未得到充分研究。在这项工作中,我们研究了使用物理力作为视频生成的控制信号,并提出了“力提示”(force prompts),它使用户能够通过局部点力(如戳植物)和全局风力场(如风吹织物)与图像进行交互。我们证明,这些力提示能够通过利用原始预训练模型中的视觉和运动先验,使视频对物理控制信号做出逼真的响应,而无需在推理时使用任何3D资产或物理模拟器。“力提示”的主要挑战在于难以获取高质量的力-视频配对训练数据,无论是在现实世界中由于难以获取力信号,还是在合成数据中由于物理模拟器在视觉质量和领域多样性上的限制。我们的关键发现是,视频生成模型在适应遵循由Blender合成的视频中的物理力条件时,即使只有少量物体的有限演示,也能表现出显著的泛化能力。我们的方法可以生成模拟跨越不同几何形状、环境和材质的力的视频。我们还试图理解这种泛化的来源,并进行了消融实验,揭示了两个关键要素:视觉多样性和在训练期间使用特定的文本关键词。我们的方法仅在四块A100 GPU上训练了一天左右,使用了约1.5万个训练样本,并在力依从性和物理真实性方面优于现有方法,使世界模型更接近真实世界的物理交互。我们在项目页面上发布了所有数据集、代码、权重和交互式视频演示。
我们在项目页面发布了所有数据集、代码、权重和交互式视频演示:https://force-prompting.github.io/