STream3R: 使用因果变换器进行可扩展的序列三维重建

发表
LAN YUSHILAN YUSHI 提交
作者: Yushi Lan, Yihang LuoYihang Luo, Fangzhou Hong, Shangchen Zhou, Honghua Chen, Zhaoyang Lyu, Shuai Yang, Bo Dai, Chen Change Loy, Xingang Pan

摘要

我们提出了 STream3R,一种新颖的 3D 重建方法,它将点云预测重新定义为仅解码器 Transformer 问题。现有的最先进的多视图重建方法要么依赖于昂贵的全局优化,要么依赖于简单的内存机制,而这些机制会随着序列长度的增加而扩展性差。相比之下,STream3R 引入了一个流式框架,该框架受现代语言建模进展的启发,使用因果注意力高效处理图像序列。通过从大规模 3D 数据集中学习几何先验,STream3R 很好地泛化到各种具有挑战性的场景,包括传统方法通常失败的动态场景。大量实验表明,我们的方法在静态和动态场景基准测试中都始终优于以前的工作。此外,STream3R 本质上与 LLM 风格的训练基础设施兼容,可实现各种下游 3D 任务的高效大规模预训练和微调。我们的结果强调了因果 Transformer 模型在在线 3D 感知方面的潜力,为流媒体环境中的实时 3D 理解铺平了道路。更多详情请参见我们的项目页面:https://nirvanalan.github.io/projects/stream3r
查看 arXiv 页面查看 PDF
STream3R: 使用因果变换器进行可扩展的序列三维重建

评论

LAN YUSHILAN YUSHI
论文提交者

TL;DR: STream3R 将密集 3D 重建重新构想为一项具有因果注意力的顺序配准任务。

项目页面

💻 代码

BrickroadBrickroad

史诗级作品!