⏶10
LDM3D:用于3D的潜在扩散模型
05月18日发表
04月12日由
AK 提交

作者:
Gabriela Ben Melech Stan,
Diana Wofk, Scottie Fox, Alex Redden, Will Saxton,
Jean Yu,
Estelle Aflalo, Shao-Yen Tseng, Fabio Nonato, Matthias Muller,
Vasudev Lal

摘要
本研究论文提出了一种用于 3D 的潜在扩散模型 (LDM3D),该模型从给定的文本提示生成图像和深度图数据,允许用户从文本提示生成 RGBD 图像。LDM3D 模型在包含 RGB 图像、深度图和标题的元组数据集上进行微调,并通过广泛的实验进行验证。我们还开发了一个名为 DepthFusion 的应用程序,它使用生成的 RGB 图像和深度图,使用 TouchDesigner 创建沉浸式和交互式的 360 度视图体验。这项技术有可能改变从娱乐和游戏到建筑和设计的广泛行业。总而言之,本文对生成式 AI 和计算机视觉领域做出了重大贡献,并展示了 LDM3D 和 DepthFusion 在彻底改变内容创作和数字体验方面的潜力。可在 https://t.ly/tdi2 找到总结该方法的简短视频。
嗨