VIST3A:通过将多视角重建网络缝合到视频生成器来生成三维文本

发表
Hyojun GOHyojun GO 提交
作者: Hyojun Go, Dominik Narnhofer, Goutam Bhat, Prune Truong, Federico Tombari, Konrad Schindler

摘要

AI 生成总结
VIST3A 结合了潜在文本到视频模型和 3D 重建系统,从文本生成高质量的 3D 场景,改进了现有方法。
用于视觉内容生成和 3D 重建的大型预训练模型的快速进步为文本到 3D 生成开辟了新的可能性。直观地说,如果能够将现代潜在文本到视频模型作为“生成器”的能力与近期(前馈)3D 重建系统的几何能力作为“解码器”结合起来,就可以获得一个强大的 3D 场景生成器。我们引入了 VIST3A,一个实现了这一目标的通用框架,解决了两个主要挑战。首先,必须以保留其权重中编码的丰富知识的方式连接这两个组件。我们重新审视模型拼接,即,我们识别 3D 解码器中与文本到视频生成器产生的潜在表示最匹配的层,并将两部分拼接在一起。该操作只需要少量数据且无标签。其次,必须将文本到视频生成器与拼接的 3D 解码器对齐,以确保生成的潜在表示可以解码为一致的、感知上令人信服的 3D 场景几何。为此,我们采用了直接奖励微调,这是一种流行的用于人类偏好对齐的技术。我们使用不同的视频生成器和 3D 重建模型评估了提出的 VIST3A 方法。所有测试组合都明显优于先前输出高斯散点的文本到 3D 模型。此外,通过选择合适的 3D 基础模型,VIST3A 还实现了高质量的文本到点云地图生成。
查看 arXiv 页面查看 PDF

评论

Hyojun GOHyojun GO
论文提交者

我们引入了 VIST3A,它将 VAE 解码器替换为 AnySplat 和 VGGT 等 3D 基础模型,使 LDM 能够生成 3D 表示。生成模型与替换的解码器对齐,使 LDM 更可靠。

网页:https://gohyojun15.github.io/VIST3A/
代码(建设中):https://github.com/gohyojun15/VIST3A

https://cdn-uploads.huggingface.co/production/uploads/649f65a4ca03a1a35e3dac14/vYoAusosbK8ZnAP3cxaAe.mp4