⏶58
4DNeX:让前馈式 4D 生成建模变得简单
发表
由
tianqi liu 提交

作者: Zhaoxi Chen, Tianqi Liu, Long Zhuo, Jiawei Ren, Zeng Tao, He Zhu, Fangzhou Hong, Liang Pan, Ziwei Liu
摘要
我们提出了 4DNeX,这是第一个用于从单幅图像生成 4D(即动态 3D)场景表示的前馈框架。与依赖计算密集型优化或需要多帧视频输入的现有方法相反,4DNeX 通过对预训练视频扩散模型进行微调,实现了高效的端到端图像到 4D 生成。具体来说,1) 为了缓解 4D 数据稀缺的问题,我们构建了 4DNeX-10M,这是一个包含使用先进重建方法生成的高质量 4D 注释的大规模数据集。2) 我们引入了统一的 6D 视频表示,它联合建模 RGB 和 XYZ 序列,促进了外观和几何的结构化学习。3) 我们提出了一组简单而有效的适应策略,以重新利用预训练的视频扩散模型进行 4D 建模。4DNeX 生成高质量的动态点云,从而实现新颖视角视频合成。广泛的实验表明,4DNeX 在效率和泛化性方面优于现有的 4D 生成方法,为图像到 4D 建模提供了可扩展的解决方案,并为模拟动态场景演化的生成式 4D 世界模型奠定了基础。
我们提出了 4DNeX,这是第一个从单张图像生成 4D(即动态 3D)场景表示的前馈框架。与现有依赖计算密集型优化或需要多帧视频输入的传统方法不同,4DNeX 通过微调预训练的视频扩散模型,实现了高效的端到端图像到 4D 生成。具体来说,1) 为了缓解 4D 数据稀缺的问题,我们构建了 4DNeX-10M,这是一个使用先进重建方法生成高质量 4D 注释的大规模数据集。2) 我们引入了一个统一的 6D 视频表示,它联合建模 RGB 和 XYZ 序列,促进了外观和几何的结构化学习。3) 我们提出了一套简单而有效的适应策略,以将预训练的视频扩散模型重新用于 4D 建模。4DNeX 生成高质量的动态点云,从而实现新颖视图视频合成。大量实验表明,4DNeX 在效率和泛化性方面优于现有 4D 生成方法,为图像到 4D 建模提供了可扩展的解决方案,并为模拟动态场景演化的生成式 4D 世界模型奠定了基础。