⏶101
生成式世界渲染器
发表
由
Zhixiang Wang 提交
作者: Zheng-Hui Huang,
Zhixiang Wang, Jiaming Tan, Ruihan Yu, Yidan Zhang, Bo Zheng, Yu-Lun Liu, Yung-Yu Chuang,
Kaipeng Zhang
摘要
AI 生成总结
本文引入了一个源自 AAA 游戏的大规模动态数据集,以改进生成式逆向和前向渲染,其特点是具有高分辨率同步 RGB 和 G-buffer 数据,以及一种与人类判断高度相关的新型基于 VLM 的评估方法。将生成式逆向和正向渲染扩展到现实场景的瓶颈在于现有合成数据集的真实感和时间相干性有限。为了弥合这一持久的领域差距,我们推出了一个从视觉复杂的 AAA 级游戏中提取的大规模动态数据集。通过一种新颖的双屏拼接捕捉方法,我们提取了 400 万帧连续帧(720p/30 FPS)的同步 RGB 和五个 G-buffer 通道,涵盖了各种场景、视觉效果和环境,包括恶劣天气和运动模糊变体。该数据集独特地推动了双向渲染:实现了鲁棒的野外几何和材料分解,并促进了高质量的基于 G-buffer 引导的视频生成。此外,为了在没有真值(ground truth)的情况下评估逆向渲染的真实表现,我们提出了一种基于 VLM(视觉语言模型)的新型评估协议,用于测量语义、空间和时间的一致性。实验表明,在我们的数据上微调的逆向渲染器实现了卓越的跨数据集泛化和可控生成,同时我们的 VLM 评估与人类判断高度相关。结合我们的工具包,我们的正向渲染器使用户能够通过文本提示,利用 G-buffer 编辑 AAA 级游戏的风格。

将生成式逆向和正向渲染扩展到真实场景,受限于现有合成数据集的现实感不足和时间相干性差。为了弥合这一持久的域鸿沟,我们推出了一个从视觉复杂的 AAA 级游戏中策划的大规模、动态数据集。通过一种新颖的双屏拼接捕捉方法,我们在多样化的场景、视觉效果和环境中提取了 400 万个连续帧(720p/30 FPS),包含同步的 RGB 和五个 G-buffer 通道,包括恶劣天气和运动模糊变体。该数据集独特地推进了双向渲染:实现了鲁棒的野外几何与材质分解,并促进了高保真 G-buffer 引导的视频生成。此外,为了在没有真值(ground truth)的情况下评估逆向渲染的现实表现,我们提出了一种基于 VLM 的新型评估协议,衡量语义、空间和时间的一致性。实验表明,在我们的数据上微调的逆向渲染器实现了卓越的跨数据集泛化和可控生成,同时我们的 VLM 评估与人类判断高度相关。结合我们的工具包,我们的正向渲染器使用户能够根据文本提示从 G-buffer 编辑 AAA 级游戏的风格。