⏶10

LDM3D：用于3D的潜在扩散模型

05月18日发表

04月12日由

AK 提交

作者:

Gabriela Ben Melech Stan,

Diana Wofk, Scottie Fox, Alex Redden, Will Saxton, Jean Yu

Jean Yu,

Estelle Aflalo, Shao-Yen Tseng, Fabio Nonato, Matthias Muller,

Vasudev Lal

摘要

本研究论文提出了一种用于 3D 的潜在扩散模型 (LDM3D)，该模型从给定的文本提示生成图像和深度图数据，允许用户从文本提示生成 RGBD 图像。LDM3D 模型在包含 RGB 图像、深度图和标题的元组数据集上进行微调，并通过广泛的实验进行验证。我们还开发了一个名为 DepthFusion 的应用程序，它使用生成的 RGB 图像和深度图，使用 TouchDesigner 创建沉浸式和交互式的 360 度视图体验。这项技术有可能改变从娱乐和游戏到建筑和设计的广泛行业。总而言之，本文对生成式 AI 和计算机视觉领域做出了重大贡献，并展示了 LDM3D 和 DepthFusion 在彻底改变内容创作和数字体验方面的潜力。可在 https://t.ly/tdi2 找到总结该方法的简短视频。

查看 arXiv 页面查看 PDF

ZhigangYang

嗨

此评论已隐藏。