⏶9
EPiC:通过精准的锚定视频引导实现高效的视频摄像机控制学习
发表
由
Jaemin Cho 提交

作者: Zun Wang, Jaemin Cho, Jialu Li, Han Lin,
Jaehong Yoon, Yue Zhang, Mohit Bansal
摘要
最近关于视频扩散模型(VDMs)中 3D 相机控制的方法通常通过根据标注的相机轨迹从估计的点云渲染来创建锚点视频,以此作为结构化先验来指导扩散模型。然而,点云估计固有的误差常常导致不准确的锚点视频。此外,对大量相机轨迹标注的需求进一步增加了资源消耗。为了解决这些局限性,我们引入了 EPiC,一个高效精确的相机控制学习框架,它无需昂贵的相机轨迹标注即可自动构建高质量的锚点视频。具体而言,我们通过基于第一帧可见性对源视频进行掩码来创建高度精确的训练用锚点视频。这种方法确保了高度对齐,消除了相机轨迹标注的需要,因此可以轻松应用于任何现实世界的视频以生成图像到视频(I2V)训练对。此外,我们引入了 Anchor-ControlNet,这是一个轻量级的条件模块,将锚点视频指导整合到可见区域的预训练 VDMs 中,参数量不到主干模型的 1%。通过结合所提出的锚点视频数据和 ControlNet 模块,EPiC 实现了高效训练,使用显著更少的参数、训练步骤和数据,且无需修改通常需要进行以缓解渲染未对齐的扩散模型主干。尽管使用基于掩码的锚点视频进行训练,我们的方法在推理时对使用点云制作的锚点视频具有鲁棒的泛化能力,从而实现精确的 3D 信息相机控制。EPiC 在 RealEstate10K 和 MiraData 上针对 I2V 相机控制任务取得了 SOTA 性能,在定量和定性上都展示了精确鲁棒的相机控制能力。值得注意的是,EPiC 还对视频到视频场景表现出强大的零样本泛化能力。
网站: https://zunwang1.github.io/Epic
Arxiv: https://arxiv.org/abs/2505.21876
代码: https://github.com/wz0919/EPiC
https://cdn-uploads.huggingface.co/production/uploads/5ffe32d8942cf3533d364449/vgEKSivDDeZO74OLFmmb7.mp4