⏶18
Direct3D-S2:利用空间稀疏注意力轻松实现超大规模三维生成
发表
由
Youtian Lin 提交
作者: Shuang Wu, Youtian Lin, Feihu Zhang, Yifei Zeng, Yikang Yang, Yajie Bao, Jiachen Qian, Siyu Zhu, Philip Torr, Xun Cao, Yao Yao
摘要
使用诸如符号距离函数(SDF)之类的体素表示来生成高分辨率3D形状带来了巨大的计算和内存挑战。我们引入了 Direct3D S2,这是一个基于稀疏体素的可伸缩3D生成框架,它以显著降低的训练成本实现了卓越的输出质量。我们的核心创新是空间稀疏注意力(Spatial Sparse Attention, SSA)机制,它极大地提高了扩散Transformer在稀疏体素数据上的计算效率。SSA使得模型能够有效处理稀疏体素内的大量token集合,显著减少了计算开销,并在前向传播中实现了3.9倍的加速,在反向传播中实现了9.6倍的加速。我们的框架还包括一个变分自编码器,它在输入、潜在和输出阶段保持一致的稀疏体素格式。与之前在3D VAE中使用异构表示的方法相比,这种统一的设计显著提高了训练效率和稳定性。我们的模型在公开可用数据集上进行训练,实验表明 Direct3D S2 不仅在生成质量和效率上超越了现有最先进的方法,而且仅使用8块GPU就能在1024分辨率下进行训练,而对于256分辨率的体素表示,这项任务通常需要至少32块GPU,从而使得千兆规模的3D生成既实用又易于实现。项目页面:https://nju3dv.github.io/projects/Direct3D-S2/。
演示: https://huggingface.co/spaces/wushuang98/Direct3D-S2-v1.0-demo
项目主页: https://nju-3dv.github.io/projects/Direct3D-S2/
代码: https://github.com/DreamTechAI/Direct3D-S2