ReVision:高质量、低成本视频生成,使用显式三维物理建模用于复杂运动和交互

发表
Qihao LiuQihao Liu 提交
作者: Qihao LiuQihao Liu, Ju HeJu He, Qihang Yu, Liang-Chieh Chen, Alan Yuille

摘要

近年来,视频生成技术取得了显著进展。然而,生成复杂动作和交互仍然存在挑战。为了解决这些挑战,我们引入了 ReVision,一个即插即用框架,它将参数化的 3D 物理知识明确地集成到预训练的条件视频生成模型中,显著增强其生成具有复杂动作和交互的高质量视频的能力。具体来说,ReVision 包括三个阶段。首先,使用视频扩散模型生成一个粗略视频。接下来,我们从粗略视频中提取一组 2D 和 3D 特征,构建一个以物体为中心的 3D 表示,然后通过我们提出的参数化物理先验模型对其进行细化,生成准确的 3D 动作序列。最后,将这个细化后的动作序列作为额外的条件反馈到同一个视频扩散模型中,从而生成动作一致的视频,即使在涉及复杂动作和交互的场景中也是如此。我们在 Stable Video Diffusion 上验证了我们方法的有效性,ReVision 显著提高了动作的逼真度和连贯性。值得注意的是,它仅拥有 15 亿参数,但在复杂视频生成方面大幅超越了拥有超过 130 亿参数的现有最先进视频生成模型。我们的结果表明,通过整合 3D 物理知识,即使是相对较小的视频扩散模型也能以更高的真实感和可控性生成复杂动作和交互,为物理上可信的视频生成提供了一个有前景的解决方案。
查看 arXiv 页面查看 PDF

评论

Qihao LiuQihao Liu
论文作者
论文提交者

ReVision 使预训练的视频扩散模型(例如 Stable Video Diffusion)能够生成具有复杂运动和交互的高质量视频。它通过显式优化生成视频中的 3D 运动信息来实现这一点。

项目页面:https://revision-video.github.io/