CVD-STORM:用于自动驾驶的跨视图视频扩散和时空重建模型

发表
Liu YichenLiu Yichen 提交
作者: Tianrui Zhang, Yichen Liu, Zilin Guo, Yuxin Guo, Jingcheng Ni, Chenjing Ding, Dan Xu, Lewei Lu, Zehuan Wu

摘要

AI 生成总结
CVD-STORM 是一种跨视图视频扩散模型,配备了时空重建 VAE,可提高视频生成质量,并为动态场景提供深度估计。
生成模型已被广泛应用于世界建模,用于环境模拟和未来状态预测。随着自动驾驶技术的进步,不仅对各种控制下的高保真视频生成有不断增长的需求,而且对生成深度估计等多样化且有意义的信息也有需求。为了解决这个问题,我们提出了 CVD-STORM,这是一个跨视图视频扩散模型,它利用一个时空重建变分自编码器 (VAE),可以在各种控制输入下生成具有 4D 重建能力的长时、多视图视频。我们的方法首先通过一个辅助的 4D 重建任务对 VAE 进行微调,增强其编码 3D 结构和时间动态的能力。随后,我们将这个 VAE 集成到视频扩散过程中,以显著提高生成质量。实验结果表明,我们的模型在 FID 和 FVD 指标上都取得了显著的改进。此外,联合训练的高斯溅射解码器有效地重建了动态场景,为全面的场景理解提供了有价值的几何信息。
查看 arXiv 页面查看 PDF

评论

Liu YichenLiu Yichen
论文提交者

我们将把代码发布到我们的代码库 https://github.com/SenseTime-FVG/OpenDWM