WorldForge:通过无训练引导在视频扩散模型中解锁新兴的 3D/4D 生成

发表
taesiritaesiri 提交
作者: SongChenxi Song, yanming YangYanming Yang, Tong Zhao, Ruibo Li, Chi ZhangChi Zhang

摘要

AI 生成总结
WorldForge 是一种免训练框架,通过递归细化、流门控潜在融合和双路径自校正指导,增强了视频扩散模型,实现了精确的运动控制和逼真的内容生成。
最近的视频扩散模型由于其丰富的潜在世界先验,在空间智能任务中展现出强大的潜力。然而,其有限的可控性和几何不一致性阻碍了这种潜力,导致其强大的先验与在3D/4D任务中的实际应用之间存在差距。因此,当前的方法通常依赖于重新训练或微调,这会带来预训练知识退化的风险并产生高昂的计算成本。为了解决这个问题,我们提出了WorldForge,一个无需训练、在推理时使用的框架,由三个紧密耦合的模块组成。步内递归精炼在推理过程中引入了一个递归精炼机制,该机制在每个去噪步骤中反复优化网络预测,以实现精确的轨迹注入。流门控潜在融合利用光流相似性来解耦潜在空间中的运动和外观,并将轨迹引导选择性地注入到与运动相关的通道中。双路径自校正引导比较引导和未引导的去噪路径,以自适应地校正由嘈杂或错位的结构信号引起的轨迹漂移。总而言之,这些组件在无需训练的情况下注入了精细的、轨迹对齐的引导,同时实现了准确的运动控制和照片级真实内容生成。在各种基准上的广泛实验验证了我们的方法在真实感、轨迹一致性和视觉保真度方面的优越性。这项工作引入了一种新颖的可插拔范式,用于可控视频合成,为利用生成先验进行空间智能提供了新的视角。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

最近的视频扩散模型由于其丰富的潜在世界先验,在空间智能任务中展现出强大的潜力。然而,这种潜力受到其有限的可控性和几何不一致性的阻碍,在它们的强先验与 3D/4D 任务中的实际应用之间造成了差距。因此,当前的方法通常依赖于重新训练或微调,这存在降级预训练知识的风险并带来高昂的计算成本。为了解决这个问题,我们提出了 WorldForge,一个无需训练、在推理时运行的框架,由三个紧密耦合的模块组成。步内递归精炼在推理过程中引入了一个递归精炼机制,该机制在每个去噪步骤内反复优化网络预测,以实现精确的轨迹注入。流门控潜在融合利用光流相似性来分离潜在空间中的运动和外观,并将轨迹引导选择性地注入到与运动相关的通道中。双路径自校正引导比较引导和未引导的去噪路径,以自适应地纠正由嘈杂或错位的结构信号引起的轨迹漂移。总之,这些组件在无需训练的情况下注入精细、轨迹对齐的引导,实现了准确的运动控制和逼真的内容生成。广泛的实验验证了我们的方法在真实感、轨迹一致性和视觉保真度方面的优越性。这项工作引入了一种新颖的可控视频合成即插即用范式,为利用生成先验进行空间智能提供了新的视角。