SphereDiff:通过球形潜在表示进行免调优的全方位全景图像和视频生成

发表
Minho ParkMinho Park 提交
作者: Minho ParkMinho Park, TaewoongKangTaewoong Kang, Jooyeol YunJooyeol Yun, Sungwon HwangSungwon Hwang, Jaegul ChooJaegul Choo

摘要

对 AR/VR 应用日益增长的需求凸显了对高质量 360 度全景内容的需求。然而,由于等距柱状投影(ERP)引入的严重失真,生成高质量的 360 度全景图像和视频仍然是一项具有挑战性的任务。现有方法要么在有限的 ERP 数据集上微调预训练的扩散模型,要么尝试仍然依赖 ERP 潜在表示的免调优方法,这导致在两极附近出现不连续性。在本文中,我们介绍了 SphereDiff,这是一种新颖的方法,使用最先进的扩散模型无缝生成 360 度全景图像和视频,而无需额外的调整。我们定义了一种球形潜在表示,确保在所有视角上均匀分布,从而减轻 ERP 中固有的失真。我们将 MultiDiffusion 扩展到球形潜在空间,并提出了一种球形潜在采样方法,以实现直接使用预训练的扩散模型。此外,我们引入了失真感知加权平均,以进一步提高投影过程中的生成质量。我们的方法在生成 360 度全景内容方面优于现有方法,同时保持了高保真度,使其成为沉浸式 AR/VR 应用的强大解决方案。代码在此处提供。https://github.com/pmh9960/SphereDiff
查看 arXiv 页面查看 PDF

评论