ZPressor:可扩展前馈 3DGS 的瓶颈感知压缩

发表
Weijie WangWeijie Wang 提交
作者: Weijie WangWeijie Wang, Donny Y. Chen, Zeyu Zhang, dcshiDuochao Shi, Akide Liu, Bohan Zhuang

摘要

前馈 3D 高斯溅射(3DGS)模型最近作为一种新颖视图合成的有前途的解决方案出现,实现了无需逐场景 3DGS 优化的一次性推理。然而,其可扩展性根本上受限于编码器容量有限,导致随着输入视图数量的增加,性能下降或内存消耗过大。在这项工作中,我们通过信息瓶颈原理分析了前馈 3DGS 框架,并引入了 ZPressor,这是一个轻量级、与架构无关的模块,能够将多视图输入高效压缩为紧凑的潜在状态 Z,该状态保留了关键场景信息同时剔除冗余。具体而言,ZPressor 通过将视图划分为锚点(anchor)集和支持(support)集,并利用交叉注意力将来自支持视图的信息压缩到锚点视图中,形成压缩的潜在状态 Z,从而使现有的前馈 3DGS 模型能够在 80GB GPU 上扩展到 480P 分辨率下的 100 多个输入视图。我们展示了将 ZPressor 集成到几个最先进的前馈 3DGS 模型中,在适度输入视图条件下持续提升性能,并在两个大型基准测试 DL3DV-10K 和 RealEstate10K 上增强了密集视图设置下的鲁棒性。视频结果、代码和训练模型可在我们的项目主页上找到:https://lhmd.top/zpressor
查看 arXiv 页面查看 PDF

评论

Weijie WangWeijie Wang
论文作者
论文提交者

ZPressor 是一个即插即用模块,可压缩多视图输入,实现可扩展的前馈 3DGS。

项目页面:https://lhmd.top/zpressor

代码:https://github.com/ziplab/ZPressor

Weijie WangWeijie Wang
论文作者
论文提交者

现有的前馈 3DGS 模型在处理密集视图时遇到困难,面临性能下降和海量冗余。ZPressor 利用信息瓶颈理论压缩多视图特征,显著提高了可扩展性和重建质量,以实现鲁棒的密集视图合成。

即插即用、轻量级且强大。

WarshawskyWarshawsky

这是否与 可变形 beta splatting 兼容? https://github.com/RongLiu-Leo/beta-splatting

Weijie WangWeijie Wang
论文作者
论文提交者

我们的当前模型主要设计用于前向传播三维重建模型。因此,它不直接适用于基于优化的、单场景训练的三维重建方法。

理论上,我们的模型与任何前向传播三维重建方法兼容,无论其底层三维表示如何。这是因为我们的方法在信息压缩层面进行操作,而不是直接对三维表示本身执行显式压缩操作(例如,高斯剪枝/合并技术)。

如果研究人员将来将 Beta Splatting 扩展成一个前向传播模型,我们将非常有兴趣在这种框架内探索我们方法的应用。