Imaginarium:视觉引导的高质量三维场景布局生成

发表
taesiritaesiri 提交
作者: Xiaoming Zhu, Xu Huang, Qinghongbing Xie, Zhi Deng, Junsheng Yu, Yirui Guan, Zhongyuan Liu, Lin Zhu, Qijun Zhao, Ligang Liu, Long Zeng

摘要

AI 生成总结
一个视觉引导的 3D 布局生成系统使用图像生成模型和场景图,从提示生成丰富且连贯的 3D 场景。
生成艺术化且连贯的 3D 场景布局对于数字内容创作至关重要。传统的基于优化的方法通常受限于繁琐的手动规则,而深度生成模型在产生丰富多样的内容方面面临挑战。此外,利用大型语言模型的方法通常缺乏鲁棒性,并且无法准确捕捉复杂的空间关系。为了应对这些挑战,本文提出了一种新颖的视觉引导式 3D 布局生成系统。我们首先构建了一个高质量的资产库,包含 2,037 个场景资产和 147 个 3D 场景布局。随后,我们采用图像生成模型将提示表示扩展为图像,并对其进行微调以与我们的资产库对齐。然后,我们开发了一个强大的图像解析模块,以根据视觉语义和几何信息恢复场景的 3D 布局。最后,我们使用场景图和整体视觉语义来优化场景布局,以确保逻辑连贯性并与图像对齐。大量的用户测试表明,我们的算法在布局丰富度和质量方面显著优于现有方法。代码和数据集将在 https://github.com/HiHiAllen/Imaginarium 上提供。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

在数字内容创作中,生成艺术化且连贯的 3D 场景布局至关重要。传统的基于优化的方法常常受到繁琐的手动规则的限制,而深度生成模型则面临着产生丰富度和多样性内容方面的挑战。此外,利用大型语言模型的方法常常缺乏鲁棒性,并且无法准确捕捉复杂的空间关系。为了应对这些挑战,本文提出了一种新颖的视觉引导式 3D 布局生成系统。我们首先构建了一个高质量的资产库,包含 2037 个场景资产和 147 个 3D 场景布局。随后,我们采用图像生成模型将提示表示扩展为图像,并对其进行微调以与我们的资产库对齐。然后,我们开发了一个鲁棒的图像解析模块,根据视觉语义和几何信息恢复场景的 3D 布局。最后,我们使用场景图和整体视觉语义优化场景布局,以确保逻辑连贯性和与图像的对齐。广泛的用户测试表明,我们的算法在布局丰富度和质量方面显著优于现有方法。

taesiritaesiri
论文提交者

GitHub 页面:https://github.com/HiHiAllen/Imaginarium