⏶21
Lyra: 通过视频扩散模型自蒸馏进行生成式 3D 场景重建
发表
由
taesiri 提交
作者:
Sherwin Bahmani, Tianchang Shen, Jiawei Ren, Jiahui Huang, Yifeng Jiang,
Haithem Turki, Andrea Tagliasacchi, David B. Lindell,
Zan Gojcic, Sanja Fidler, Huan Ling, Jun Gao,
Xuanchi Ren
摘要
AI 生成总结
一个自蒸馏框架将视频扩散模型中的隐式 3D 知识转化为显式 3D 高斯溅射表示,从而能够从文本或图像生成 3D 场景。生成虚拟环境的能力对于从游戏到物理 AI 领域(如机器人、自动驾驶和工业 AI)的应用至关重要。当前的基于学习的 3D 重建方法依赖于捕获的真实世界多视图数据的可用性,而这些数据并不总是易于获取。视频扩散模型的最新进展已显示出卓越的想象能力,但其 2D 性质将应用限制在机器人需要导航和与环境交互的模拟中。在本文中,我们提出了一种自蒸馏框架,旨在将视频扩散模型中的隐式 3D 知识蒸馏到显式的 3D 高斯飞溅(3DGS)表示中,从而消除了对多视图训练数据的需求。具体来说,我们用一个 3DGS 解码器增强了典型的 RGB 解码器,该解码器由 RGB 解码器的输出来监督。在这种方法中,3DGS 解码器可以纯粹使用视频扩散模型生成的合成数据进行训练。在推理时,我们的模型可以从文本提示或单张图像合成 3D 场景以进行实时渲染。我们的框架还可以扩展到从单目输入视频进行动态 3D 场景生成。实验结果表明,我们的框架在静态和动态 3D 场景生成方面取得了最先进的性能。

生成虚拟环境的能力对于从游戏到物理 AI 领域(如机器人、自动驾驶和工业 AI)的应用至关重要。目前基于学习的 3D 重建方法依赖于捕获的真实世界多视图数据的可用性,而这些数据并非总是现成的。视频扩散模型近期的进展展现了令人瞩目的想象力,但其 2D 性质将应用限制在需要机器人导航和与环境交互的模拟中。在本文中,我们提出了一种自蒸馏框架,旨在将视频扩散模型中的隐式 3D 知识蒸馏到显式 3D 高斯飞溅(3DGS)表示中,从而无需多视图训练数据。具体来说,我们用 3DGS 解码器增强了典型的 RGB 解码器,该解码器受 RGB 解码器输出的监督。通过这种方法,3DGS 解码器可以完全使用视频扩散模型生成的合成数据进行训练。在推理时,我们的模型可以从文本提示或单个图像合成 3D 场景以进行实时渲染。我们的框架进一步扩展到从单目输入视频生成动态 3D 场景。实验结果表明,我们的框架在静态和动态 3D 场景生成方面取得了最先进的性能。