⏶28

SphereDiff：通过球形潜在表示进行免调优的全方位全景图像和视频生成

04月19日发表

04月22日由 Minho Park 提交

作者: Minho Park, TaewoongKang Taewoong Kang, Jooyeol Yun, Sungwon Hwang, Jaegul Choo

摘要

对 AR/VR 应用日益增长的需求凸显了对高质量 360 度全景内容的需求。然而，由于等距柱状投影（ERP）引入的严重失真，生成高质量的 360 度全景图像和视频仍然是一项具有挑战性的任务。现有方法要么在有限的 ERP 数据集上微调预训练的扩散模型，要么尝试仍然依赖 ERP 潜在表示的免调优方法，这导致在两极附近出现不连续性。在本文中，我们介绍了 SphereDiff，这是一种新颖的方法，使用最先进的扩散模型无缝生成 360 度全景图像和视频，而无需额外的调整。我们定义了一种球形潜在表示，确保在所有视角上均匀分布，从而减轻 ERP 中固有的失真。我们将 MultiDiffusion 扩展到球形潜在空间，并提出了一种球形潜在采样方法，以实现直接使用预训练的扩散模型。此外，我们引入了失真感知加权平均，以进一步提高投影过程中的生成质量。我们的方法在生成 360 度全景内容方面优于现有方法，同时保持了高保真度，使其成为沉浸式 AR/VR 应用的强大解决方案。代码在此处提供。https://github.com/pmh9960/SphereDiff

查看 arXiv 页面查看 PDF

Minho Park

论文作者

论文提交者

https://cdn-uploads.huggingface.co/production/uploads/630461624ec2dfa82a5ad7e7/PSA2IRnKb0XwPJ5t-XpO3.mp4

SphereDiff：通过球形潜在表示进行免调优的全方位全景图像和视频生成

摘要

评论