点提示:使用视频扩散模型的反事实跟踪

发表
Ayush ShrivastavaAyush Shrivastava 提交
作者: Ayush Shrivastava, Sanyam Mehta, Daniel Geng, Andrew Owens

摘要

AI 生成总结
预训练的视频扩散模型可以通过视觉标记点并重新生成视频帧来进行零样本点跟踪,其性能优于先前的方法并能处理遮挡问题。
跟踪器和视频生成器解决了密切相关的问题:前者分析运动,后者合成运动。我们表明,这种联系使得预训练的视频扩散模型能够通过简单地提示它们在一段时间内视觉标记点来执行零样本点跟踪。我们在查询点放置一个独特的彩色标记,然后从中间噪声水平重新生成视频的其余部分。这会将标记传播到整个帧,从而跟踪该点。为了确保在反事实生成中标记保持可见,尽管自然视频中不太可能出现此类标记,我们将未编辑的初始帧用作负提示。通过对多个图像条件视频扩散模型的实验,我们发现这些“涌现”的跟踪优于以前的零样本方法,并且能够持续通过遮挡,通常可以获得与专门的自监督模型相媲美的性能。
查看 arXiv 页面查看 PDF

评论

Ayush ShrivastavaAyush Shrivastava
论文提交者
点提示:通过视频扩散模型进行反事实跟踪

摘要:我们提出了一种通过简单地提示视频扩散模型在运动过程中视觉标记点来实现零样本点跟踪的方法。

https://cdn-uploads.huggingface.co/production/uploads/66f41c37d8de0f55059d3317/Jd99nbHHpZh8leFtanp_7.mp4

摘要

跟踪器和视频生成器解决的是密切相关的问题:前者分析运动,后者合成运动。我们证明了这种联系使得预训练的视频扩散模型能够通过简单地提示它们在运动过程中视觉标记点来实现零样本点跟踪。我们将一个带有独特颜色的标记放置在查询点,然后从中间噪声水平重新生成视频的其余部分。这会将标记传播到每一帧,追踪点的轨迹。为了确保标记在反事实生成过程中保持可见,尽管自然视频中不太可能出现这样的标记,我们使用未经编辑的初始帧作为负提示。通过对多个图像条件视频扩散模型的实验,我们发现这些“涌现”的轨迹优于以前的零样本方法,并且能够穿过遮挡,通常能获得与专用自监督模型相媲美的性能。

点传播

https://cdn-uploads.huggingface.co/production/uploads/66f41c37d8de0f55059d3317/NC0W8S97NxX0nQg_f4dlN.mp4

增强反事实信号

counterfactual-enhance