UniMMVSR:用于级联视频超分辨率的统一多模态框架

发表
Shian DuShian Du 提交
作者: Shian DuShian Du, Menghan Xia, Chang Liu, Quande Liu, Xintao Wang, Pengfei Wan, Xiangyang Ji

摘要

AI 生成总结
UniMMVSR 是一个统一的生成视频超分辨率框架,在一个潜在视频扩散模型中融入了文本、图像和视频等混合模态条件,实现了卓越的细节和对多模态条件的符合。
**级联视频超分辨率**已成为一种有前途的技术,可以**解耦大型基础模型生成高分辨率视频**相关的计算负担。然而,现有研究主要局限于**文本到视频任务**,并且未能利用文本以外的其他生成条件,而这些条件对于确保多模态视频生成中的**保真度**至关重要。我们通过提出 **UniMMVSR** 来解决这一限制,这是第一个**统一的生成视频超分辨率框架**,它集成了**混合模态条件**,包括文本、图像和视频。我们在**潜视频扩散模型**中对条件注入策略、训练方案和数据混合技术进行了全面探索。一个关键挑战是设计**不同的数据构建和条件利用方法**,以使模型能够精确地利用所有条件类型,因为它们与目标视频的**相关性各不相同**。我们的实验表明,UniMMVSR **显著优于现有方法**,生成的视频具有**更佳的细节**和**更高程度的多模态条件一致性**。我们还验证了将 UniMMVSR 与基础模型结合以实现 4K 视频的多模态引导生成的可行性,这是现有技术之前无法实现的。
查看 arXiv 页面查看 PDF

评论

Shian DuShian Du
论文作者
论文提交者

qualitative4

Shian DuShian Du
论文作者
论文提交者

TL;DR:我们提出了 UniMMVSR,这是第一个统一的生成视频超分辨率框架,它整合了包括文本、图像和视频在内的混合模态条件,并首次支持 4K 可控视频生成。