⏶169
Utonia:迈向所有点云的单一编码器
发表
由
Xiaoyang Wu 提交
作者:
Yujia Zhang,
Xiaoyang Wu,
Yunhan Yang, Xianzhe Fan, Han Li,
Yuechen Zhang, Zehao Huang, Naiyan Wang, Hengshuang Zhao
摘要
AI 生成总结
Utonia 通过统一的自监督 Transformer 编码器实现跨域点云表示学习,增强了感知能力,并支持具身及多模态推理任务。我们梦想着一个未来,来自所有领域的点云可以汇聚在一起,形成一个统一的模型,让所有点云受益。为了实现这一目标,我们提出了 Utonia,这是在多样化领域(包括遥感、室外激光雷达、室内 RGB-D 序列、以物体为中心的 CAD 模型以及从纯 RGB 视频中提取的点云)中训练单个自监督点变换器编码器的第一步。尽管它们具有不同的传感几何形状、密度和先验知识,Utonia 学习到了一致的表示空间,可以跨领域传输。这种统一提高了感知能力,同时揭示了只有在联合训练领域时才会出现的有趣涌现行为。除了感知,我们还观察到 Utonia 表示也可以受益于具身和多模态推理:将视觉-语言-动作策略条件化为 Utonia 特征可以改进机器人操作,将其集成到视觉-语言模型中可以在空间推理方面获得收益。我们希望 Utonia 能够成为稀疏 3D 数据基础模型的第一步,并支持 AR/VR、机器人和自动驾驶领域的下游应用。

主页:https://pointcept.github.io/Utonia
代码:https://github.com/Pointcept/Utonia
演示:https://huggingface.co/spaces/pointcept-bot/Utonia
权重:https://huggingface.co/Pointcept/Utonia