Droplet3D:来自视频的常识性先验促进了3D生成

发表
Xiaochuan LiXiaochuan Li 提交
作者: Xiaochuan LiXiaochuan Li, Guoguang Du, Runze Zhang, Liang Jin, Qi Jia, Lihua Lu, Zhenhua Guo, Yaqian Zhao, Haiyang Liu, Tianqi Wang, Changsheng Li, Xiaoli Gong, Rengang Li, Baoyu Fan

摘要

缩放定律已经验证了在文本、图像和视频领域进行创意生成的大型数据训练模型的成功和前景。然而,这种范式在三维领域面临数据稀缺的问题,因为与上述模式相比,互联网上可用的三维数据要少得多。幸运的是,存在包含常识先验的足够视频,提供了一种替代的监督信号,以缓解由有限的本地三维数据引起的泛化瓶颈。一方面,捕捉物体或场景多个视角的视频为三维生成提供了空间一致性先验。另一方面,视频中丰富的语义信息使得生成的内容更能忠实于文本提示,并且在语义上是合理的。本文探讨了如何将视频模式应用于三维资产生成,涵盖数据集到模型。我们介绍了 Droplet3D-4M,这是第一个具有多视图级别注释的大规模视频数据集,并训练了 Droplet3D,一个支持图像和密集文本输入的生成模型。大量的实验验证了我们方法的有效性,证明了其生成空间一致且语义合理的內容的能力。此外,与主流的三维解决方案相比,我们的方法展现了扩展到场景级应用的潜力。这表明来自视频的常识先验极大地促进了三维创作。我们已开源所有资源,包括数据集、代码、技术框架和模型权重:https://dropletx.github.io/
查看 arXiv 页面查看 PDF

评论

Xiaochuan LiXiaochuan Li
论文作者
论文提交者

我们提出了一种利用视频生成技术来增强三维内容生成的新颖方法。为此,我们基于 Objaverse-XL 构建了一个大规模多视角三维数据集 Droplet3D-4M。随后,我们成功地使用视频生成骨干模型 DropletVideo 训练了一个相应的 3D 生成模型。我们的技术方案、模型权重和数据集现已全面开源。

论文:https://www.arxiv.org/abs/2508.20470

Github:https://github.com/IEIT-AGI/Droplet3D

项目:https://dropletx.github.io/

模型权重:https://huggingface.co/DropletX/Droplet3D-5B

Droplet3D-4M:https://huggingface.co/datasets/DropletX/Droplet3D-4M