⏶26
从文本生成物理稳定且可建造的乐高设计
发表
由
AK 提交

作者:
Ava Pun,
Kangle Deng,
Ruixuan Liu,
Deva Ramanan, Changliu Liu,
Jun-Yan Zhu


摘要
我们介绍了 LegoGPT,这是首个从文本提示生成物理稳定乐高积木模型的方法。为了实现这一目标,我们构建了一个大规模的、物理稳定的乐高设计数据集及其相关的文字说明,并训练了一个自回归大型语言模型,通过下一词元预测来预测要添加的下一个积木。为了提高生成设计的稳定性,我们在自回归推理过程中采用了高效的有效性检查和物理感知回滚,这利用物理定律和组装约束来剪枝不可行的词元预测。我们的实验表明,LegoGPT 生成的乐高设计稳定、多样且美观,与输入的文本提示紧密对齐。我们还开发了一种基于文本的乐高纹理方法,用于生成彩色和带有纹理的设计。我们展示了我们的设计可以由人类手动组装,也可以由机械臂自动组装。我们还发布了新的数据集 StableText2Lego,其中包含 47,000 多个乐高结构,这些结构对应于 28,000 多个独特的 3D 物体,并附有详细的文字说明,同时在项目网站 https://avalovelace1.github.io/LegoGPT/ 上发布了我们的代码和模型。
https://cdn-uploads.huggingface.co/production/uploads/60f1abe7544c2adfd699860c/H3ZnSW4tHo4fJY5YIwxpP.mp4