ATI:可控视频生成的任意轨迹指令

发表
Angtian WangAngtian Wang 提交
作者: Angtian Wang, Haibin Huang, Jacob Zhiyuan Fang, Yiding Yang, Chongyang Ma

摘要

我们提出了一个用于视频生成中运动控制的统一框架,该框架利用基于轨迹的输入,无缝整合了摄像机运动、物体级平移和精细局部运动。与以往通过单独模块或任务特定设计来处理这些运动类型的方法不同,我们的方法提供了一个内聚的解决方案,通过轻量级运动注入器将用户定义的轨迹投影到预训练图像到视频生成模型的潜在空间中。用户可以指定关键点及其运动路径来控制局部变形、整个物体的运动、虚拟摄像机动态或它们的组合。注入的轨迹信号引导生成过程产生时间上一致且语义对齐的运动序列。我们的框架在多种视频运动控制任务中展现出卓越的性能,包括风格化运动效果(例如,运动画笔)、动态视角变化和精确的局部运动操纵。实验表明,与现有方法和商业解决方案相比,我们的方法提供了显著更好的可控性和视觉质量,同时与各种最先进的视频生成主干模型保持广泛兼容。项目主页:https://anytraj.github.io/
查看 arXiv 页面查看 PDF

评论

Angtian WangAngtian Wang
论文提交者

ATI 是一个基于轨迹的运动控制框架,在视频生成中统一了对象、局部和相机运动。

https://cdn-uploads.huggingface.co/production/uploads/66a800a2c1454e2221e77473/jS65WynTIHHwxbuM4mjd0.mp4

网站:https://anytraj.github.io/

Github:https://github.com/bytedance/ATI

Hugging Face:https://huggingface.co/bytedance-research/ATI