⏶19
CineScale:高分辨率电影视觉生成中的“免费午餐”
发表
由
Haonan Qiu 提交
作者: Haonan Qiu, Ning Yu, Ziqi Huang, Paul Debevec, Ziwei Liu
摘要
视觉扩散模型取得了显著进展,但由于缺乏高分辨率数据和计算资源限制,它们通常在有限的分辨率下进行训练,这阻碍了它们以更高分辨率生成高保真图像或视频的能力。最近的努力探索了无需微调的策略,以展现预训练模型在更高分辨率视觉生成方面未被发掘的潜力。然而,这些方法仍然容易产生具有重复模式的低质量视觉内容。关键障碍在于,当模型生成超出其训练分辨率的视觉内容时,高频信息会不可避免地增加,导致由累积错误引起的令人不快的重复模式。在这项工作中,我们提出了 CineScale,一种实现更高分辨率视觉生成的新颖推理范例。为了解决两种视频生成架构引入的各种问题,我们为每种架构提出了专门的变体。与现有的仅限于高分辨率 T2I 和 T2V 生成的基线方法不同,CineScale 将范围扩大,通过实现高分辨率 I2V 和 V2V 合成,建立在最先进的开源视频生成框架之上。广泛的实验验证了我们的范例在扩展图像和视频模型更高分辨率视觉生成能力方面的优越性。值得注意的是,我们的方法能够在没有任何微调的情况下实现 8k 图像生成,并且在仅进行少量 LoRA 微调的情况下实现 4k 视频生成。生成的视频样本可在我们的网站上找到:https://eyeline-labs.github.io/CineScale/。
CineScale 是 FreeScale 的扩展工作,用于更高分辨率的视频生成,解锁了 4k 视频生成!
项目主页:https://eyeline-labs.github.io/CineScale/
代码仓库:https://github.com/Eyeline-Labs/CineScale