DriveGen3D:通过高效视频扩散提升前馈驾驶场景生成

发表
Weijie WangWeijie Wang 提交
作者: Weijie WangWeijie Wang, Jiagang Zhu, Zeyu Zhang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Haoxiao Wang, Guan Huang, Xinze Chen, Yukun Zhou, Wenkang Qin, Duochao Shi, Haoyun Li, Guanghong Jia, Jiwen Lu

摘要

AI 生成总结
DriveGen3D 使用统一的管道,通过高效的视频扩散和 3D 重建,生成高质量、可控的动态 3D 驾驶场景。
我们提出了DriveGen3D,这是一个用于生成高质量、高可控的动态三维驾驶场景的新型框架,它解决了现有方法中的关键局限性。目前驾驶场景合成的方法要么在长期时间生成方面存在计算需求过高的问题,要么仅专注于长时视频合成而缺乏三维表示,要么将自己限制在静态单场景重建。我们的工作通过集成加速的长期视频生成与大规模动态场景重建,并通过多模态条件控制,弥合了这一方法学的差距。DriveGen3D引入了一个统一的管道,该管道由两个专业组件组成:FastDrive-DiT,一个高效的视频扩散Transformer,用于在文本和鸟瞰图(BEV)布局指导下生成高分辨率、时间连贯的视频;以及FastRecon3D,一个前馈重建模块,能够快速构建跨时间的三个高斯表示,确保时空一致性。这些组件共同实现了对长时驾驶视频(高达424x800,12 FPS)和相应的动态三维场景的实时生成,在新视图合成上取得了0.811的SSIM和22.84的PSNR,同时保持了参数效率。
查看 arXiv 页面查看 PDF

评论

Weijie WangWeijie Wang
论文作者
论文提交者

DriveGen3D: 通过高效视频扩散提升前馈驾驶场景生成