⏶7
运动感知概念对齐,实现一致的视频编辑
发表
由
Tong Zhang 提交
作者:
Tong Zhang, Juan C Leon Alcazar, Bernard Ghanem
摘要
我们介绍了MoCA-Video(视频中的运动感知概念对齐),这是一个无需训练的框架,弥合了图像域语义混合与视频之间的鸿沟。给定一个生成的视频和用户提供的参考图像,MoCA-Video将参考图像的语义特征注入到视频中的特定对象中,同时保留了原始运动和视觉背景。我们的方法利用对角去噪调度和类别无关的分割,在潜在空间中检测和跟踪对象,并精确控制混合对象的空间位置。为了确保时间一致性,我们融入了基于动量的语义校正和伽马残余噪声稳定,以实现平滑的帧过渡。我们使用标准的SSIM、图像级LPIPS、时间LPIPS评估MoCA的性能,并引入了一种新的指标CASS(概念对齐偏移分数),用于评估源提示和修改后的视频帧之间视觉偏移的一致性和有效性。使用自建数据集,MoCA-Video超越了当前的基线,尽管没有经过训练或微调,仍实现了卓越的空间一致性、连贯的运动和显著更高的CASS分数。MoCA-Video表明,扩散噪声轨迹中的结构化操作能够实现可控的高质量视频合成。
GitHub 仓库: https://github.com/ZhangT-tech/MoCA-Video
网页: https://zhangt-tech.github.io/MoCA-Page/