如何利用Stable Diffusion实现文本到360度全景图生成?

发表
Allen ZhangAllen Zhang 提交
作者: Jinhong NiJinhong Ni, Allen ZhangChang-Bin Zhang, Qiang Zhang, Jing Zhang

摘要

最近文本到图像扩散模型的繁荣发展,例如 Stable Diffusion,刺激了将其应用于 360 度全景生成的研究。先前的研究工作已经证明了在预训练的扩散模型上使用传统的低秩适应技术生成全景图像的可行性。然而,透视图像和全景图像之间巨大的领域差距引发了关于这种经验成功的潜在机制的疑问。我们假设并检验了可训练的对应部分在全景数据上微调时表现出不同的行为,并且这种适应隐藏了一些内在机制,以利用预训练扩散模型中的先验知识。我们的分析揭示了以下几点:1)注意力模块中的查询(query)和键(key)矩阵负责可在全景和透视领域之间共享的通用信息,因此与全景生成的相关性较低;2)值(value)和输出权重矩阵专门用于将预训练知识适应到全景领域,在全景生成的微调过程中起着更关键的作用。我们通过引入一个名为 UniPano 的简单框架来实证验证这些见解,旨在为未来的研究建立一个优雅的基线。UniPano 不仅优于现有方法,而且与先前的双分支方法相比显著减少了内存使用和训练时间,使其能够以更高分辨率进行端到端全景生成。代码将发布。
查看 arXiv 页面查看 PDF

评论

Allen ZhangAllen Zhang
论文作者
论文提交者

本文研究了有助于LoRA微调Stable Diffusion进行全景图生成的关键组件,并提出了一种利用较少计算资源的先进文本到全景图生成模型。