⏶28
SphereDiff:通过球形潜在表示进行免调优的全方位全景图像和视频生成
发表
由
Minho Park 提交
作者:
Minho Park,
Taewoong Kang,
Jooyeol Yun,
Sungwon Hwang,
Jaegul Choo
摘要
对 AR/VR 应用日益增长的需求凸显了对高质量 360 度全景内容的需求。然而,由于等距柱状投影(ERP)引入的严重失真,生成高质量的 360 度全景图像和视频仍然是一项具有挑战性的任务。现有方法要么在有限的 ERP 数据集上微调预训练的扩散模型,要么尝试仍然依赖 ERP 潜在表示的免调优方法,这导致在两极附近出现不连续性。在本文中,我们介绍了 SphereDiff,这是一种新颖的方法,使用最先进的扩散模型无缝生成 360 度全景图像和视频,而无需额外的调整。我们定义了一种球形潜在表示,确保在所有视角上均匀分布,从而减轻 ERP 中固有的失真。我们将 MultiDiffusion 扩展到球形潜在空间,并提出了一种球形潜在采样方法,以实现直接使用预训练的扩散模型。此外,我们引入了失真感知加权平均,以进一步提高投影过程中的生成质量。我们的方法在生成 360 度全景内容方面优于现有方法,同时保持了高保真度,使其成为沉浸式 AR/VR 应用的强大解决方案。代码在此处提供。https://github.com/pmh9960/SphereDiff
https://cdn-uploads.huggingface.co/production/uploads/630461624ec2dfa82a5ad7e7/PSA2IRnKb0XwPJ5t-XpO3.mp4