⏶18
SceneGen:单张图像一次前馈生成三维场景
发表
由
Haoning Wu 提交

作者:
Yanxu Meng,
Haoning Wu, Ya Zhang,
Weidi Xie

摘要
由于在 VR/AR 和具身 AI 中的应用,3D 内容生成近年来引起了重要的研究兴趣。在本工作中,我们解决了在单个场景图像中合成多个 3D 资产这一具有挑战性的任务。具体来说,我们的贡献是四方面的:(i)我们提出了 SceneGen,一个新颖的框架,它接收场景图像和相应的对象掩码作为输入,同时生成具有几何和纹理的多个 3D 资产。值得注意的是,SceneGen 在无需优化或资产检索的情况下即可运行;(ii)我们引入了一个新颖的特征聚合模块,它集成了特征提取模块中视觉和几何编码器的局部和全局场景信息。结合位置头,这使得在一次前馈传递中即可生成 3D 资产及其相对空间位置;(iii)我们展示了 SceneGen 对多图像输入场景的直接可扩展性。尽管仅通过单图像输入进行训练,但我们的架构设计使得使用多图像输入能够提高生成性能;以及(iv)广泛的定量和定性评估证实了我们方法的效率和稳健的生成能力。我们相信这种范式为高质量 3D 内容生成提供了新颖的解决方案,有望推动其在下游任务中的实际应用。代码和模型将在:https://mengmouxu.github.io/SceneGen 公开。

项目页面:https://mengmouxu.github.io/SceneGen/
论文:https://arxiv.org/abs/2508.15769
代码:https://github.com/Mengmouxu/SceneGen
总结来说,我们在本文中做出了以下贡献:
(i) 我们提出了 SceneGen,一个新颖的框架,它以场景图像和对应的对象掩码作为输入,同时生成具有几何和纹理的多个 3D 资产。值得注意的是,SceneGen 在无需优化或资产检索的情况下运行;
(ii) 我们引入了一个新颖的特征聚合模块,该模块在特征提取模块中集成了来自视觉和几何编码器的局部和全局场景信息。结合位置头,这使得在一次前馈传递中生成 3D 资产及其相对空间位置成为可能;
(iii) 我们展示了 SceneGen 对多图像输入的直接可扩展性。尽管仅在单图像输入上进行训练,但我们的架构设计使多图像输入下的生成性能有所提高;
(iv) 大量的定量和定性评估证实了我们方法的效率和强大的生成能力。
我们相信这一范式为高质量的 3D 内容生成提供了一个新颖的解决方案,有可能推动其在下游任务中的实际应用。
我们正在整理我们的代码、数据和检查点,并将很快逐步开源。敬请关注!!!欢迎随时联系交流!