⏶5
驾驭生成式视频模型进行零样本光流提取
发表
由
Seungwoo (Simon) Kim 提交

作者:
Seungwoo Kim, Khai Loong Aw, Klemen Kotar, Cristobal Eyzaguirre, Wanhee Lee, Yunong Liu, Jared Watrous, Stefan Stojanov, Juan Carlos Niebles, Jiajun Wu, Daniel L. K. Yamins

摘要
从视频中提取光流仍然是计算机视觉领域的一个核心问题。受大型通用模型成功的启发,我们探究是否可以在不进行微调的情况下,通过提示(prompting)仅为预测未来帧而训练的、已冻结的自监督视频模型来输出光流。先前从视频生成器中读取深度或光照的工作需要进行微调,但这对于光流任务而言并不现实,因为光流标签稀缺,且合成数据集存在从模拟到现实的差距(sim-to-real gap)。受到反事实世界模型(CWM)范式的启发——该范式通过向下一帧预测器注入一个小的追踪器扰动并追踪其传播来获得逐点对应关系——我们将这一思想扩展到生成式视频模型。我们探索了数种流行的架构,并发现以这种方式成功进行零样本光流提取需要模型具备三个特性:(1)对未来帧进行分布式预测(以避免模糊或有噪声的输出);(2)将每个时空块独立处理的分解式潜变量;以及(3)能够以未来像素的任意子集为条件的随机访问解码。这些特性在近期的局部随机访问序列(LRAS)架构中得到了独特的体现。在LRAS的基础上,我们提出了一种名为KL-tracing的新颖测试时程序:它向第一帧注入一个局部扰动,将模型前推一步,然后计算受扰和未受扰的预测分布之间的KL散度(Kullback-Leibler divergence)。在没有任何针对光流的微调的情况下,我们的方法在真实世界的TAP-Vid DAVIS数据集(端点误差相对提升16.6%)和合成的TAP-Vid Kubric数据集(相对提升4.7%)上均优于当前最先进的模型。我们的结果表明,对于高质量光流任务而言,对可控生成式视频模型进行反事实提示是一种可扩展且有效的替代方案,可以取代监督式或基于光度损失的方法。
我们提示生成式视频模型提取最先进的光流,无需任何标签和微调。我们的方法 KL-tracing 在 TAP-Vid 上取得了最先进的结果,并能泛化到有挑战性的 YouTube 片段。
项目网站:https://neuroailab.github.io/projects/kl_tracing/