⏶6
4D-LRM:任意时间与视角间的通用大规模时空重建模型
发表
由
Yu 提交
作者:
Ziqiao Ma, Xuweiyi Chen, Shoubin Yu, Sai Bi, Kai Zhang, Chen Ziwen, Sihan Xu, Jianing Yang, Zexiang Xu, Kalyan Sunkavalli, Mohit Bansal, Joyce Chai, Hao Tan

摘要
我们能否扩展4D预训练,以学习通用的时空表示,从而从少数视图和时间点的数据中重建出物体在任何时间、任何视图下的形态?我们通过4D-LRM给出了肯定的答案,这是第一个大规模4D重建模型,它接受来自无约束视图和时间戳的输入,并渲染任意新的视图-时间组合。与先前的4D方法(例如,基于优化的、基于几何的或生成式的)不同,这些方法在效率、泛化性或逼真度方面存在困难,4D-LRM学习了一种统一的时空表示,并直接从跨时间对齐的图像标记中预测每像素4D高斯基元,原则上可以实现无限帧率的快速、高质量渲染。我们的结果表明,扩展时空预训练可以实现准确高效的4D重建。我们展示了4D-LRM能够泛化到新颖物体,在时间上进行插值,并处理多样化的相机设置。它在单个A100 GPU上只需不到1.5秒的一次正向传递即可重建24帧序列。
项目页面: https://4dlrm.github.io/