⏶7
Scenethesis:一个用于3D场景生成的语言与视觉智能体框架
发表
由
Lu Ling 提交

作者:
Lu Ling, Chen-Hsuan Lin, Tsung-Yi Lin, Yifan Ding, Yu Zeng, Yichen Sheng, Yunhao Ge, Ming-Yu Liu, Aniket Bera, Zhaoshuo Li

摘要
从文本合成交互式3D场景对于游戏、虚拟现实和具身AI至关重要。然而,现有方法面临若干挑战。基于学习的方法依赖于小规模室内数据集,这限制了场景的多样性和布局的复杂性。尽管大型语言模型(LLM)可以利用多样的文本领域知识,但它们在空间真实感方面存在困难,经常生成不自然的物体放置,不符合常识。我们的关键见解是,视觉感知可以弥补这一差距,提供LLM所缺乏的真实空间指导。为此,我们引入了Scenethesis,这是一个无需训练的智能体框架,它将基于LLM的场景规划与视觉引导的布局细化相结合。给定文本提示,Scenethesis首先利用LLM起草一个粗略的布局。然后,一个视觉模块通过生成图像指导并提取场景结构以捕捉物体间关系来对其进行细化。接下来,一个优化模块迭代地强制执行精确的姿态对齐和物理合理性,防止物体穿透和不稳定等伪影。最后,一个判断模块验证空间一致性。全面实验表明,Scenethesis能够生成多样、真实且物理合理的3D交互场景,这使其对于虚拟内容创建、仿真环境和具身AI研究具有重要价值。
使用语言和视觉先验的文本到 3D 场景生成
https://cdn-uploads.huggingface.co/production/uploads/6347935d79e42766e212fa53/lc9A-7MCZz54LOc-NuHBF.mp4