⏶25
SPATIALGEN: 布局引导的 3D 室内场景生成
发表
由
Jia Zheng 提交
作者: Chuan Fang, Heng Li, Yixun Liang,
Jia Zheng, Yongsen Mao, Yuan Liu, Rui Tang, Zihan Zhou, Ping Tan
摘要
AI 生成总结
SpatialGen 是一种多视图多模态扩散模型,使用大型合成数据集生成逼真且语义一致的 3D 室内场景,性能优于先前方法。为室内环境创建高保真 3D 模型对于设计、虚拟现实和机器人技术等应用至关重要。
然而,手动 3D 建模仍然耗时且劳动密集。
尽管生成式 AI 的最新进展使得自动化场景合成成为可能,但现有方法在平衡视觉质量、多样性、语义一致性和用户控制方面经常面临挑战。
一个主要的瓶颈是缺乏针对此任务量身定制的大规模、高质量数据集。
为了弥补这一差距,我们引入了一个全面的合成数据集,其中包含 12,328 个结构化标注场景、57,440 个房间和 470 万张照片级真实感 2D 渲染图。
利用此数据集,我们提出了 SpatialGen,一种新颖的多视图多模态扩散模型,可生成逼真且语义一致的 3D 室内场景。
给定 3D 布局和参考图像(源自文本提示),我们的模型可以从任意视点合成外观(彩色图像)、几何(场景坐标图)和语义(语义分割图),同时在模态之间保持空间一致性。
在我们的实验中,SpatialGen 一贯生成优于先前方法的性能。
我们正在开源我们的数据和模型,以赋能社区并推进室内场景理解和生成领域。

给定一个 3D 语义布局,SpatialGen 可以根据文本或图像提示生成逼真的 3D 室内场景。