⏶64
Droplet3D:来自视频的常识性先验促进了3D生成
发表
由
Xiaochuan Li 提交

作者:
Xiaochuan Li, Guoguang Du, Runze Zhang, Liang Jin, Qi Jia, Lihua Lu, Zhenhua Guo, Yaqian Zhao, Haiyang Liu, Tianqi Wang, Changsheng Li, Xiaoli Gong, Rengang Li, Baoyu Fan

摘要
缩放定律已经验证了在文本、图像和视频领域进行创意生成的大型数据训练模型的成功和前景。然而,这种范式在三维领域面临数据稀缺的问题,因为与上述模式相比,互联网上可用的三维数据要少得多。幸运的是,存在包含常识先验的足够视频,提供了一种替代的监督信号,以缓解由有限的本地三维数据引起的泛化瓶颈。一方面,捕捉物体或场景多个视角的视频为三维生成提供了空间一致性先验。另一方面,视频中丰富的语义信息使得生成的内容更能忠实于文本提示,并且在语义上是合理的。本文探讨了如何将视频模式应用于三维资产生成,涵盖数据集到模型。我们介绍了 Droplet3D-4M,这是第一个具有多视图级别注释的大规模视频数据集,并训练了 Droplet3D,一个支持图像和密集文本输入的生成模型。大量的实验验证了我们方法的有效性,证明了其生成空间一致且语义合理的內容的能力。此外,与主流的三维解决方案相比,我们的方法展现了扩展到场景级应用的潜力。这表明来自视频的常识先验极大地促进了三维创作。我们已开源所有资源,包括数据集、代码、技术框架和模型权重:https://dropletx.github.io/。
我们提出了一种利用视频生成技术来增强三维内容生成的新颖方法。为此,我们基于 Objaverse-XL 构建了一个大规模多视角三维数据集 Droplet3D-4M。随后,我们成功地使用视频生成骨干模型 DropletVideo 训练了一个相应的 3D 生成模型。我们的技术方案、模型权重和数据集现已全面开源。
论文:https://www.arxiv.org/abs/2508.20470
Github:https://github.com/IEIT-AGI/Droplet3D
项目:https://dropletx.github.io/
模型权重:https://huggingface.co/DropletX/Droplet3D-5B
Droplet3D-4M:https://huggingface.co/datasets/DropletX/Droplet3D-4M