MoVieS:一秒内完成运动感知的 4D 动态视图合成

发表
Chenguo LinChenguo Lin 提交
作者: Chenguo LinChenguo Lin, Yuchen LinYuchen Lin, Panwang PanPanwang Pan, Yifan Yu, Honglei Yan, Katerina Fragkiadaki, Yadong Mu

摘要

我们提出了 MoVieS,一种新颖的前馈模型,它能在一秒钟内从单目视频合成 4D 动态新视角。MoVieS 使用与像素对齐的高斯基元网格来表示动态 3D 场景,并对其随时间变化的运动进行显式监督。这首次实现了对外观、几何和运动的统一建模,并在一个单一的、基于学习的框架内,实现了视角合成、重建和 3D 点跟踪。通过将新视角合成与动态几何重建相结合,MoVieS 能够在多样化的数据集上进行大规模训练,同时对特定任务监督的依赖极小。因此,它也自然地支持广泛的零样本应用,例如场景流估计和运动对象分割。大量实验验证了 MoVieS 在多项任务中的有效性和效率,它在实现具有竞争力的性能的同时,还提供了几个数量级的速度提升。
查看 arXiv 页面查看 PDF

评论

Chenguo LinChenguo Lin
论文作者
论文提交者

📑 论文: https://arxiv.org/pdf/2507.10065

🏠 项目主页: https://chenguolin.github.io/projects/MoVieS

💻 代码: https://github.com/chenguolin/MoVieS

Chenguo LinChenguo Lin
论文作者
论文提交者

🚨 我们刚刚发布了 🎞️MoVieS — 一个前馈模型,能在 ⚡️1 秒内重建 4D 场景

我最喜欢的部分是:它能通过新视角渲染 + 稀疏点追踪的监督方式,学习到密集的(像素级)清晰 3D 世界运动 🤯🎯

快来看看吧 👉 https://chenguolin.github.io/projects/MoVieS

Panwang PanPanwang Pan
论文作者

我们很高兴分享我们的工作,希望这项工作能促进点跟踪、动态对象分割和视频深度估计等下游任务。