⏶60
Step1X-3D:迈向纹理化 3D 资产的高保真可控生成
发表
由
xuanyang zhang 提交
作者: Weiyu Li,
Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li,
Wei Cheng, Weiwei Cai,
Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen,
Feipeng Tian,
Jianxiong Pan, Zeming Li,
Gang Yu, Xiangyu Zhang,
Daxin Jiang, Ping Tan



摘要
尽管生成式人工智能在文本、图像、音频和视频等领域取得了显著进展,但由于数据稀缺、算法限制和生态系统碎片化等基本挑战,3D 生成相对欠发达。为此,我们提出了 Step1X-3D,一个通过以下方式解决这些挑战的开放框架:(1)一个严格的数据整理流程,处理超过 500 万个资产,创建一个具有标准化几何和纹理属性的 200 万个高质量数据集;(2)一个两阶段的 3D 本地架构,将混合 VAE-DiT 几何生成器与基于扩散的纹理合成模块相结合;以及(3)模型的完整开源发布,包括训练代码和适配模块。对于几何生成,混合 VAE-DiT 组件通过采用基于感知器的潜在编码和锐利边缘采样(用于保留细节)来生成 TSDF 表示。然后,基于扩散的纹理合成模块通过几何条件化和潜在空间同步来确保跨视图一致性。基准测试结果表明,该框架具有超越现有开源方法的最新性能,同时在质量上与专有解决方案具有竞争力。值得注意的是,该框架通过支持将 2D 控制技术(例如 LoRA)直接迁移到 3D 合成,独特地弥合了 2D 和 3D 生成范式之间的鸿沟。通过同时提高数据质量、算法保真度和可重复性,Step1X-3D 旨在为可控 3D 资产生成的开放研究建立新标准。

尽管生成式人工智能在文本、图像、音频和视频领域取得了显著进展,但由于数据稀缺、算法限制和生态系统碎片化等根本性挑战,3D 生成仍然相对欠发达。为此,我们提出了 Step1X-3D,一个开放框架,通过以下方式应对这些挑战:(1) 一个严谨的数据整理管线,处理超过 500 万个资产,创建了一个包含标准化几何和纹理属性的 200 万高质量数据集;(2) 一个两阶段的 3D 原生架构,结合了混合 VAE-DiT 几何生成器和基于扩散的纹理合成模块;(3) 模型、训练代码和适应模块的完整开源发布。对于几何生成,混合 VAE-DiT 组件采用基于感知器的潜在编码和锐利边缘采样来保留细节,从而生成 TSDF 表示。基于扩散的纹理合成模块通过几何条件化和潜在空间同步来确保跨视角一致性。基准测试结果表明,其性能达到了最先进水平,超过了现有的开源方法,同时与专有解决方案相比也具有竞争力。值得注意的是,该框架通过支持将 2D 控制技术(例如 LoRA)直接迁移到 3D 合成,独特地连接了 2D 和 3D 生成范式。通过同时提升数据质量、算法保真度和可复现性,Step1X-3D 旨在为可控 3D 资产生成的开放研究建立新标准。