ShapeLLM-Omni:用于3D生成与理解的原生多模态LLM

发表
yejunliangyejunliang 提交
作者: yejunliangJunliang Ye, Zhengyi WangZhengyi Wang, Ruowen ZhaoRuowen Zhao, Shenghao Xie, Jun Zhu

摘要

近期,ChatGPT-4o 强大的文本到图像能力使得人们对原生多模态大型语言模型有了越来越多的认识。然而,其多模态能力仍局限于图像和文本。但除了图像,理解和生成3D内容的能力同样至关重要。为了弥补这一空白,我们提出了 ShapeLLM-Omni——一个原生的3D大型语言模型,能够理解和生成任意序列的3D资产和文本。首先,我们训练了一个3D向量量化变分自编码器(VQVAE),它将3D对象映射到离散潜在空间,以实现高效准确的形状表示和重建。在3D感知离散令牌的基础上,我们创新性地构建了一个名为3D-Alpaca的大规模连续训练数据集,涵盖生成、理解和编辑,从而为未来的研究和训练提供了丰富的资源。最后,通过在3D-Alpaca数据集上对Qwen-2.5-vl-7B-Instruct模型进行指令式训练。我们的工作为将多模态模型扩展到具备基本3D能力提供了一次有效的尝试,这将有助于未来3D原生AI的研究。项目页面:https://github.com/JAMESYJL/ShapeLLM-Omni
查看 arXiv 页面查看 PDF

评论

yejunliangyejunliang
论文作者
论文提交者
摘要

最近,ChatGPT-4o强大的文本到图像能力使得人们对原生多模态大型语言模型的关注日益增长。然而,其多模态能力仍局限于图像和文本。但在图像之外,理解和生成3D内容的能力同样至关重要。为了弥补这一空白,我们提出了ShapeLLM-Omni——一个能够以任何顺序理解和生成3D资产和文本的原生3D大型语言模型。首先,我们训练了一个3D矢量量化变分自编码器(VQVAE),它将3D对象映射到离散潜在空间中,以实现高效准确的形状表示和重建。基于这些3D感知的离散代币,我们创新性地构建了一个名为3D-Alpaca的大规模连续训练数据集,涵盖了生成、理解和编辑,从而为未来的研究和训练提供了丰富的资源。最后,通过在3D-Alpaca数据集上对Qwen-2.5-vl-7B-Instruct模型进行指令式训练。我们的工作为扩展多模态模型以具备基本的3D能力提供了一个有效的尝试,有助于未来3D原生AI的研究。项目页面:

head.jpg

https://jamesyjl.github.io/ShapeLLM/