⏶20

UniMMVSR：用于级联视频超分辨率的统一多模态框架

10月09日发表

10月10日由 Shian Du 提交

作者: Shian Du, Menghan Xia, Chang Liu, Quande Liu, Xintao Wang, Pengfei Wan, Xiangyang Ji

摘要

AI 生成总结

UniMMVSR 是一个统一的生成视频超分辨率框架，在一个潜在视频扩散模型中融入了文本、图像和视频等混合模态条件，实现了卓越的细节和对多模态条件的符合。

**级联视频超分辨率**已成为一种有前途的技术，可以**解耦大型基础模型生成高分辨率视频**相关的计算负担。然而，现有研究主要局限于**文本到视频任务**，并且未能利用文本以外的其他生成条件，而这些条件对于确保多模态视频生成中的**保真度**至关重要。我们通过提出 **UniMMVSR** 来解决这一限制，这是第一个**统一的生成视频超分辨率框架**，它集成了**混合模态条件**，包括文本、图像和视频。我们在**潜视频扩散模型**中对条件注入策略、训练方案和数据混合技术进行了全面探索。一个关键挑战是设计**不同的数据构建和条件利用方法**，以使模型能够精确地利用所有条件类型，因为它们与目标视频的**相关性各不相同**。我们的实验表明，UniMMVSR **显著优于现有方法**，生成的视频具有**更佳的细节**和**更高程度的多模态条件一致性**。我们还验证了将 UniMMVSR 与基础模型结合以实现 4K 视频的多模态引导生成的可行性，这是现有技术之前无法实现的。

查看 arXiv 页面查看 PDF

Shian Du

论文作者

论文提交者

qualitative4

Shian Du

论文作者

论文提交者

TL;DR：我们提出了 UniMMVSR，这是第一个统一的生成视频超分辨率框架，它整合了包括文本、图像和视频在内的混合模态条件，并首次支持 4K 可控视频生成。

UniMMVSR：用于级联视频超分辨率的统一多模态框架

摘要

评论