⏶11
SimpleGVR:用于潜在级联视频超分辨率的简单基线
发表
由
AK 提交

作者:
Liangbin Xie, Yu Li, Shian Du, Menghan Xia, Xintao Wang, Fanghua Yu, Ziyan Chen, Pengfei Wan, Jiantao Zhou, Chao Dong
摘要
潜在扩散模型已成为高效视频生成的主要范式。然而,随着用户期望转向更高分辨率的输出,仅仅依靠潜在计算变得不足。一个有前途的方法是将过程解耦为两个阶段:语义内容生成和细节合成。前者在较低分辨率下使用计算密集型基础模型,而后者利用轻量级级联视频超分辨率(VSR)模型来实现高分辨率输出。在这项工作中,我们专注于研究当前探索不足的级联 VSR 模型的关键设计原则。首先,我们提出了两种降级策略来生成训练对,以更好地模仿基础模型的输出特征,确保 VSR 模型与其上游生成器对齐。其次,我们通过系统分析(1)时间步采样策略和(2)噪声增强对低分辨率(LR)输入的影响,提供了对 VSR 模型行为的关键见解。这些发现直接指导了我们的架构和训练创新。最后,我们引入了交错时间单元和稀疏局部注意力,以实现高效训练和推理,大幅降低计算开销。大量实验证明了我们框架优于现有方法的优势,消融研究证实了每个设计选择的有效性。我们的工作为级联视频超分辨率生成建立了一个简单而有效的基线,提供了实用见解,以指导未来高效级联合成系统的发展。
评论

论文提交者