⏶20
UniMMVSR:用于级联视频超分辨率的统一多模态框架
发表
由
Shian Du 提交
作者:
Shian Du, Menghan Xia, Chang Liu, Quande Liu, Xintao Wang, Pengfei Wan, Xiangyang Ji
摘要
AI 生成总结
UniMMVSR 是一个统一的生成视频超分辨率框架,在一个潜在视频扩散模型中融入了文本、图像和视频等混合模态条件,实现了卓越的细节和对多模态条件的符合。**级联视频超分辨率**已成为一种有前途的技术,可以**解耦大型基础模型生成高分辨率视频**相关的计算负担。然而,现有研究主要局限于**文本到视频任务**,并且未能利用文本以外的其他生成条件,而这些条件对于确保多模态视频生成中的**保真度**至关重要。我们通过提出 **UniMMVSR** 来解决这一限制,这是第一个**统一的生成视频超分辨率框架**,它集成了**混合模态条件**,包括文本、图像和视频。我们在**潜视频扩散模型**中对条件注入策略、训练方案和数据混合技术进行了全面探索。一个关键挑战是设计**不同的数据构建和条件利用方法**,以使模型能够精确地利用所有条件类型,因为它们与目标视频的**相关性各不相同**。我们的实验表明,UniMMVSR **显著优于现有方法**,生成的视频具有**更佳的细节**和**更高程度的多模态条件一致性**。我们还验证了将 UniMMVSR 与基础模型结合以实现 4K 视频的多模态引导生成的可行性,这是现有技术之前无法实现的。
评论
论文作者
论文提交者