⏶33
FlashVSR:面向实时基于扩散的流式视频超分辨率
发表
由
taesiri 提交

作者:
Junhao Zhuang, Shi Guo, Xin Cai, Xiaohui Li, Yihao Liu, Chun Yuan, Tianfan Xue
摘要
扩散模型最近在视频恢复方面取得了进展,但由于高延迟、高昂的计算成本和对超高分辨率泛化能力差等问题,将其应用于真实世界的视频超分辨率(VSR)仍然具有挑战性。我们在这项工作中的目标是通过实现效率、可扩展性和实时性能,使基于扩散的 VSR 变得实用。为此,我们提出了 FlashVSR,这是第一个迈向实时 VSR 的基于扩散的单步流式框架。FlashVSR 在单个 A100 GPU 上以大约 17 FPS 的速度处理 768x1408 视频,结合了三项互补的创新:(i)一种对训练友好的三阶段蒸馏流水线,支持流式超分辨率;(ii)一种局部约束的稀疏注意力机制,该机制可以减少冗余计算,同时弥合训练-测试分辨率差距;(iii)一种微小的条件解码器,可加速重建而不牺牲质量。为了支持大规模训练,我们还构建了 VSR-120K,一个包含 120,000 个视频和 180,000 张图像的新数据集。大量的实验表明,FlashVSR 可以可靠地扩展到超高分辨率,并取得最先进的性能,与之前的单步扩散 VSR 模型相比,速度最高可提高 12 倍。我们将发布代码、预训练模型和数据集,以促进未来在高效的基于扩散的 VSR 方面的研究。
评论
论文作者
FlashVSR:迈向实时扩散式流视频超分辨率
页面:https://zhuang2002.github.io/FlashVSR/
论文:https://arxiv.org/abs/2510.12747
代码:https://github.com/OpenImagingLab/FlashVSR
⭐ 如果您喜欢我们的工作,请给它一个星!
TL;DR — FlashVSR 是一个流式、一步式基于扩散的视频超分辨率框架,具有块稀疏注意力(block-sparse attention)和微型条件解码器(Tiny Conditional Decoder)。它在单个 A100 GPU 上以 768×1408 的分辨率可达到约 17 FPS。局部约束注意力(Locality-Constrained Attention)设计进一步提高了超高分辨率视频的泛化能力和感知质量。