⏶5
TLB-VFI: 时间感知潜在布朗桥扩散用于视频帧插值
发表
由
Zonglin Lyu 提交
作者:
Zonglin Lyu, Chen Chen
摘要
视频帧插值(VFI)旨在根据两个连续的相邻帧I_0和I_1来预测中间帧I_n(我们使用n表示视频中的时间,以避免与扩散模型中的时间步长t出现符号过载)。近期方法将扩散模型(包括基于图像和基于视频的)应用于此任务,并取得了卓越性能。然而,基于图像的扩散模型无法提取时间信息,并且与非扩散方法相比效率相对较低。基于视频的扩散模型可以提取时间信息,但其在训练规模、模型大小和推理时间方面过于庞大。为了缓解上述问题,我们提出了一种高效的基于视频的扩散模型——时间感知潜在布朗桥扩散视频帧插值模型(Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation,TLB-VFI)。通过我们提出的3D小波门控和时间感知自编码器从视频输入中提取丰富的时间信息,我们的方法在最具挑战性的数据集上,相对于近期基于图像的扩散模型的SOTA,在FID指标上实现了20%的改进。同时,由于存在丰富的时间信息,我们的方法在参数量减少3倍的情况下仍能达到出色性能。这种参数减少带来了2.3倍的速度提升。通过结合光流引导,我们的方法所需的训练数据量比基于视频的扩散模型减少9000倍,并且参数量也减少了20倍以上。代码和结果可在我们的项目页面获取:https://zonglinl.github.io/tlbvfi_page。
TLBVFI