流式4D视觉几何Transformer

发表
Guo JiaHeGuo JiaHe 提交
作者: paryiDong Zhuo, Wenzhao Zheng, Guo JiaHeJiahe Guo, Yuqi Wu, Jie Zhou, Jiwen Lu

摘要

从视频中感知和重建4D时空几何是一个基础但具有挑战性的计算机视觉任务。为了促进交互式和实时应用,我们提出了一种流式4D视觉几何变换器,它与自回归大型语言模型具有相似的理念。我们探索了一种简单高效的设计,并采用因果变换器架构以在线方式处理输入序列。我们使用时间因果注意力并将历史键值缓存为隐式记忆,以实现高效的流式长期4D重建。这种设计可以通过增量整合历史信息来处理实时4D重建,同时保持高质量的空间一致性。为了高效训练,我们提出将知识从稠密双向视觉几何接地变换器(VGGT)蒸馏到我们的因果模型中。对于推理,我们的模型支持从大型语言模型领域迁移优化的efficient attention算子(例如FlashAttention)。在各种4D几何感知基准测试上的广泛实验表明,我们的模型在在线场景中提高了推理速度,同时保持了有竞争力的性能,为可扩展和交互式的4D视觉系统铺平了道路。代码可从:https://github.com/wzzheng/StreamVGGT 获取。
查看 arXiv 页面查看 PDF

评论

Guo JiaHeGuo JiaHe
论文作者
论文提交者

我们提出了StreamVGGT,一种新颖的因果Transformer架构,专门为高效、实时流式4D视觉几何重建而设计。给定一系列图像,与需要每收到新图像时重新处理整个序列并重建整个场景的离线模型不同,我们的StreamVGGT采用时间因果注意力并利用缓存内存token来支持高效的增量式即时重建,从而实现迭代和实时在线应用。