⏶18
文本、图像和3D结构的逐Token对齐
发表
由
Aadarsh Sahoo 提交

作者: Aadarsh Sahoo, Vansh Tibrewal, Georgia Gkioxari
摘要
创造能够理解3D世界的机器对于协助构建和编辑3D环境的设计师,以及在三维空间中导航和交互的机器人至关重要。受语言和图像建模进展的启发,我们研究了自回归模型在一种新模态——结构化3D场景中的潜力。为此,我们提出了一个统一的LLM框架,该框架能够对齐语言、图像和3D场景,并提供了一本详细的“操作指南”,概述了实现最佳训练和性能的关键设计选择,解决了与数据表示、模态特定目标等相关的关键问题。我们评估了模型在四项核心3D任务(渲染、识别、指令遵循和问答)以及四个(合成和真实世界)3D数据集上的性能。我们通过用量化形状编码丰富我们的3D模态,将方法扩展到重建复杂的3D物体形状,并展示了我们的模型在真实世界3D物体识别任务中的有效性。项目网页:https://glab-caltech.github.io/kyvo/

隆重推出Kyvo——一个仅解码器LLM,它能逐token地对齐文本、图像和结构化3D场景。
从单张图像出发,它能重建单个3D形状及其位置,渲染并编辑场景,回答空间问题,以及更多功能。
项目主页:https://glab-caltech.github.io/kyvo/