LDM3D:用于3D的潜在扩散模型

05月18日发表
04月12日由 AKAK 提交
作者: gabriela ben melechGabriela Ben Melech Stan, Diana WofkDiana Wofk, Scottie Fox, Alex Redden, Will Saxton, Jean YuJean Yu, Estelle AflaloEstelle Aflalo, Shao-Yen Tseng, Fabio Nonato, Matthias Muller, Vasudev LalVasudev Lal

摘要

本研究论文提出了一种用于 3D 的潜在扩散模型 (LDM3D),该模型从给定的文本提示生成图像和深度图数据,允许用户从文本提示生成 RGBD 图像。LDM3D 模型在包含 RGB 图像、深度图和标题的元组数据集上进行微调,并通过广泛的实验进行验证。我们还开发了一个名为 DepthFusion 的应用程序,它使用生成的 RGB 图像和深度图,使用 TouchDesigner 创建沉浸式和交互式的 360 度视图体验。这项技术有可能改变从娱乐和游戏到建筑和设计的广泛行业。总而言之,本文对生成式 AI 和计算机视觉领域做出了重大贡献,并展示了 LDM3D 和 DepthFusion 在彻底改变内容创作和数字体验方面的潜力。可在 https://t.ly/tdi2 找到总结该方法的简短视频。

评论

ZhigangYangZhigangYang

FyFy
此评论已隐藏。