FlashWorld:在几秒钟内生成高质量的 3D 场景

发表
Xinyang LiXinyang Li 提交
作者: Xinyang Li, Tengfei Wang, Zixiao GuZixiao Gu, Shengchuan Zhang, Chunchao Guo, Liujuan Cao

摘要

AI 生成总结
FlashWorld 通过结合面向 MV 和面向 3D 的生成方法,快速高质量地从单个图像或文本提示生成 3D 场景。
我们提出了FlashWorld,一个生成模型,可以在几秒钟内从单个图像或文本提示生成3D场景,速度比以前的模型快10到100倍,同时拥有卓越的渲染质量。我们的方法从传统的面向多视角的(MV-oriented)范式(该范式生成多视角图像以供后续3D重建)转移到一个面向3D的范式,在该范式中,模型在多视角生成过程中直接生成3D高斯表示。虽然面向3D的方法确保了3D一致性,但通常会出现视觉质量不佳的问题。FlashWorld包含一个双模预训练阶段,然后是一个跨模后训练阶段,有效地结合了两种范式的优点。具体来说,我们利用视频扩散模型的先验知识,首先预训练了一个双模多视角扩散模型,该模型同时支持面向MV和面向3D的生成模式。为了弥合面向3D生成质量上的差距,我们进一步提出了一个跨模后训练蒸馏方法,通过将一致的面向3D模式的分布与高质量的面向MV模式进行匹配。这不仅在保持3D一致性的同时提高了视觉质量,还减少了推理所需的去噪步骤。此外,我们还提出了一种策略,利用大量的单视角图像和文本提示在这个过程中增强模型对分布外输入的泛化能力。大量的实验证明了我们方法的优越性和效率。
查看 arXiv 页面查看 PDF

评论

Xinyang LiXinyang Li
论文提交者

TLDR:FlashWorld 能够在 7 秒内(在单个 A100/A800 GPU 上)实现从单张图像或文本提示生成高质量的 3D 场景,覆盖各种场景。

teaser

项目页面:https://imlixinyang.github.io/FlashWorld-Project-Page/
演示:
https://cdn-uploads.huggingface.co/production/uploads/629631565de6e0eb3292afed/NoEVESXQGRMJ06FjhqZjQ.mp4