Wan-Move:通过潜在轨迹引导实现运动可控的视频生成

发表
taesiritaesiri 提交
作者: Ruihang ChuRuihang Chu, Yefei He, zhekai chenZhekai Chen, Shiwei Zhang, Xiaogang XuXiaogang Xu, Bin Xia, Dingdong Wang, Hongwei Yi, Xihui LiuXihui Liu, Hengshuang ZhaoHengshuang Zhao, Yu Liu, Yingya Zhang, Yujiu YangYujiu Yang

摘要

AI 生成总结
Wan-Move 通过将运动感知特征集成到潜在空间中,增强了视频生成模型中的运动控制,从而实现高质量和可扩展的视频合成。
我们提出了 Wan-Move,一个简单且可扩展的框架,为视频生成模型带来运动控制。现有可运动控制的方法通常存在控制粒度粗糙和可扩展性有限的问题,导致其输出不足以用于实际应用。我们通过实现精确高质量的运动控制来缩小这一差距。我们的核心思想是直接使原始条件特征具有运动感知能力,以指导视频合成。为此,我们首先用密集的点轨迹表示物体运动,从而实现对场景的精细控制。然后,我们将这些轨迹投影到潜在空间中,并沿着每个轨迹传播第一帧的特征,生成一个对齐的时空特征图,该特征图显示了每个场景元素应该如何移动。该特征图作为更新后的潜在条件,自然地集成到现成的图像到视频模型中,例如 Wan-I2V-14B,作为运动指导,而无需任何架构更改。它消除了对辅助运动编码器的需求,并使基础模型的微调易于扩展。通过大规模训练,Wan-Move 生成 5 秒、480p 的视频,其运动可控性与 Kling 1.5 Pro 的商业 Motion Brush 相媲美,用户研究表明了这一点。为了支持全面的评估,我们进一步设计了 MoveBench,这是一个经过严格策划的基准,具有多样化的内容类别和混合验证的注释。它的特点是数据量更大、视频时长更长、运动注释质量更高。在 MoveBench 和公共数据集上进行的广泛实验一致表明 Wan-Move 具有卓越的运动质量。代码、模型和基准数据已公开发布。
查看 arXiv 页面查看 PDF
Wan-Move:通过潜在轨迹引导实现运动可控的视频生成
Wan-Move:通过潜在轨迹引导实现运动可控的视频生成

评论

taesiritaesiri
论文提交者

NeurIPS 2025:Wan-Move:通过潜在轨迹引导实现运动可控视频生成

Ruihang ChuRuihang Chu
论文作者
💡 TLDR:将 Wan I2V 带入 SOTA 细粒度、点级运动控制!

论文:https://arxiv.org/abs/2512.08765
代码:https://github.com/ali-vilab/Wan-Move
模型(Hugging Face):https://huggingface.co/Ruihang/Wan-Move-14B-480P
模型(ModelScope):https://modelscope.cn/models/churuihang/Wan-Move-14B-480P
基准:https://huggingface.co/datasets/Ruihang/MoveBench
演示页面:https://wan-move.github.io/
介绍视频:https://www.youtube.com/watch?v=_5Cy7Z2NQJQ