4DNeX:让前馈式 4D 生成建模变得简单

发表
tianqi liutianqi liu 提交
作者: Zhaoxi Chen, Tianqi Liu, Long Zhuo, Jiawei Ren, Zeng Tao, He Zhu, Fangzhou Hong, Liang Pan, Ziwei Liu

摘要

我们提出了 4DNeX,这是第一个用于从单幅图像生成 4D(即动态 3D)场景表示的前馈框架。与依赖计算密集型优化或需要多帧视频输入的现有方法相反,4DNeX 通过对预训练视频扩散模型进行微调,实现了高效的端到端图像到 4D 生成。具体来说,1) 为了缓解 4D 数据稀缺的问题,我们构建了 4DNeX-10M,这是一个包含使用先进重建方法生成的高质量 4D 注释的大规模数据集。2) 我们引入了统一的 6D 视频表示,它联合建模 RGB 和 XYZ 序列,促进了外观和几何的结构化学习。3) 我们提出了一组简单而有效的适应策略,以重新利用预训练的视频扩散模型进行 4D 建模。4DNeX 生成高质量的动态点云,从而实现新颖视角视频合成。广泛的实验表明,4DNeX 在效率和泛化性方面优于现有的 4D 生成方法,为图像到 4D 建模提供了可扩展的解决方案,并为模拟动态场景演化的生成式 4D 世界模型奠定了基础。
查看 arXiv 页面查看 PDF

评论

tianqi liutianqi liu
论文提交者

我们提出了 4DNeX,这是第一个从单张图像生成 4D(即动态 3D)场景表示的前馈框架。与现有依赖计算密集型优化或需要多帧视频输入的传统方法不同,4DNeX 通过微调预训练的视频扩散模型,实现了高效的端到端图像到 4D 生成。具体来说,1) 为了缓解 4D 数据稀缺的问题,我们构建了 4DNeX-10M,这是一个使用先进重建方法生成高质量 4D 注释的大规模数据集。2) 我们引入了一个统一的 6D 视频表示,它联合建模 RGB 和 XYZ 序列,促进了外观和几何的结构化学习。3) 我们提出了一套简单而有效的适应策略,以将预训练的视频扩散模型重新用于 4D 建模。4DNeX 生成高质量的动态点云,从而实现新颖视图视频合成。大量实验表明,4DNeX 在效率和泛化性方面优于现有 4D 生成方法,为图像到 4D 建模提供了可扩展的解决方案,并为模拟动态场景演化的生成式 4D 世界模型奠定了基础。