4Real-Video-V2: 用于4D场景生成的融合视图-时间注意力与前馈重建

发表
Ashkan MirzaeiAshkan Mirzaei 提交
作者: Chaoyang Wang, Ashkan Mirzaei, Vidit Goel, Willi Menapace, Aliaksandr Siarohin, Avalon Vinella, Michael Vasilkovsky, Ivan Skorokhodov, Vladislav Shakhrai, Sergey Korolev, Sergey Tulyakov, Peter Wonka

摘要

我们提出了第一个能够为每个时间步计算视频帧和3D高斯粒子的4D时空网格的框架,该框架采用前馈架构。我们的架构有两个主要组件:一个4D视频模型和一个4D重建模型。在第一部分中,我们分析了当前在双流设计中顺序或并行执行空间和时间注意力的4D视频扩散架构。我们强调了现有方法的局限性,并引入了一种新颖的融合架构,它在单个层中执行空间和时间注意力。我们方法的关键在于稀疏注意力模式,其中令牌关注同一帧、同一时间戳或同一视点中的其他令牌。在第二部分中,我们通过引入高斯头部、相机令牌替换算法以及额外的动态层和训练来扩展现有的3D重建算法。总体而言,我们为4D生成树立了新的技术标杆,提升了视觉质量和重建能力。
查看 arXiv 页面查看 PDF

评论

Ashkan MirzaeiAshkan Mirzaei
论文提交者

4Real-Video-V2: 用于4D场景生成的融合视时注意力与前馈重建