从文本生成物理稳定且可建造的乐高设计

发表
AKAK 提交
作者: Ava PunAva Pun, Kangle DengKangle Deng, Ruixuan LiuRuixuan Liu, Deva RamananDeva Ramanan, Changliu Liu, Jun-Yan ZhuJun-Yan Zhu

摘要

我们介绍了 LegoGPT,这是首个从文本提示生成物理稳定乐高积木模型的方法。为了实现这一目标,我们构建了一个大规模的、物理稳定的乐高设计数据集及其相关的文字说明,并训练了一个自回归大型语言模型,通过下一词元预测来预测要添加的下一个积木。为了提高生成设计的稳定性,我们在自回归推理过程中采用了高效的有效性检查和物理感知回滚,这利用物理定律和组装约束来剪枝不可行的词元预测。我们的实验表明,LegoGPT 生成的乐高设计稳定、多样且美观,与输入的文本提示紧密对齐。我们还开发了一种基于文本的乐高纹理方法,用于生成彩色和带有纹理的设计。我们展示了我们的设计可以由人类手动组装,也可以由机械臂自动组装。我们还发布了新的数据集 StableText2Lego,其中包含 47,000 多个乐高结构,这些结构对应于 28,000 多个独特的 3D 物体,并附有详细的文字说明,同时在项目网站 https://avalovelace1.github.io/LegoGPT/ 上发布了我们的代码和模型。
查看 arXiv 页面查看 PDF

评论