⏶10

4Real-Video-V2: 用于4D场景生成的融合视图-时间注意力与前馈重建

06月18日发表

06月24日由 Ashkan Mirzaei 提交

作者: Chaoyang Wang, Ashkan Mirzaei, Vidit Goel, Willi Menapace, Aliaksandr Siarohin, Avalon Vinella, Michael Vasilkovsky, Ivan Skorokhodov, Vladislav Shakhrai, Sergey Korolev, Sergey Tulyakov, Peter Wonka

摘要

我们提出了第一个能够为每个时间步计算视频帧和3D高斯粒子的4D时空网格的框架，该框架采用前馈架构。我们的架构有两个主要组件：一个4D视频模型和一个4D重建模型。在第一部分中，我们分析了当前在双流设计中顺序或并行执行空间和时间注意力的4D视频扩散架构。我们强调了现有方法的局限性，并引入了一种新颖的融合架构，它在单个层中执行空间和时间注意力。我们方法的关键在于稀疏注意力模式，其中令牌关注同一帧、同一时间戳或同一视点中的其他令牌。在第二部分中，我们通过引入高斯头部、相机令牌替换算法以及额外的动态层和训练来扩展现有的3D重建算法。总体而言，我们为4D生成树立了新的技术标杆，提升了视觉质量和重建能力。

查看 arXiv 页面查看 PDF

Ashkan Mirzaei

论文提交者

4Real-Video-V2: 用于4D场景生成的融合视时注意力与前馈重建

Igor

项目页面在这里：

https://snap-research.github.io/4Real-Video-V2/

4Real-Video-V2: 用于4D场景生成的融合视图-时间注意力与前馈重建

摘要

评论