PartCrafter: 通过组合式潜在扩散 Transformer 生成结构化 3D 网格

发表
Chenguo LinChenguo Lin 提交
作者: Yuchen LinYuchen Lin, Chenguo LinChenguo Lin, Panwang PanPanwang Pan, Honglei Yan, Yiqiang Feng, Yadong Mu, Katerina Fragkiadaki

摘要

我们引入了 PartCrafter,这是首个结构化3D生成模型,它能够从单张RGB图像中共同合成多个语义上有意义且几何上独特的3D网格。与现有方法不同,现有方法要么生成单一的3D形状,要么遵循两阶段流程(即,先分割图像再重建每个部分),PartCrafter 采用统一的、组合式生成架构,不依赖于预分割的输入。它以单张图像为条件,同时对多个3D部件进行去噪,从而实现对单个物体和复杂多物体场景的端到端部件感知生成。PartCrafter 基于在完整物体上训练的预训练3D网格扩散Transformer (DiT) 构建,继承了预训练的权重、编码器和解码器,并引入了两项关键创新:(1) 一个组合式潜在空间,其中每个3D部件都由一组解耦的潜在token表示;(2) 一种分层注意力机制,它能够在单个部件内部和所有部件之间实现结构化信息流,确保在生成过程中保持全局一致性同时保留部件级别细节。为了支持部件级别监督,我们通过从大规模3D物体数据集中挖掘部件级别标注,策划了一个新数据集。实验表明,PartCrafter 在生成可分解的3D网格方面优于现有方法,包括输入图像中不直接可见的部件,这证明了部件感知生成先验对于3D理解和合成的强大作用。代码和训练数据将发布。
查看 arXiv 页面查看 PDF

评论

Chenguo LinChenguo Lin
论文作者
论文提交者

PartCrafter:一个 3D 原生 DiT,能分部件生成 3D 对象 🧩

✅ 无需额外分割

✅ 纯 3D 原生 DiT

🎯 开箱即用,生成部件感知的 3D 对象

项目页面:https://wgsxm.github.io/projects/partcrafter

代码:https://github.com/wgsxm/PartCrafter

论文:https://arxiv.org/pdf/2506.05573

Panwang PanPanwang Pan
论文作者

PartCrafter 是一个强大的结构化 3D 生成模型,旨在以 ⚡️前馈方式⚡️ 从单一 RGB 图像中同时生成多个部件和对象。

https://wgsxm.github.io/projects/partcrafter/

代码、预训练检查点和一个 Hugging Face 🤗 演示将很快上线!

敬请期待更多激动人心的更新!🚀 @akhaliq

Dorin VlasDorin Vlas

很有趣!