⏶5
Point-MoE: 迈向基于专家混合的3D语义分割跨领域泛化
发表
由
Xuweiyi Chen 提交

作者: Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury, Zezhou Cheng
摘要
尽管缩放定律已经改变了自然语言处理和计算机视觉,但3D点云理解尚未达到这一阶段。这可以归因于3D数据集规模相对较小,以及数据来源的差异性。点云通过多种传感器(例如,深度相机、激光雷达)在不同领域(例如,室内、室外)捕获,每种传感器都引入了独特的扫描模式、采样密度和语义偏差。这种领域异质性对训练大规模统一模型构成了主要障碍,尤其是在推理时通常无法访问领域标签的现实约束下。在这项工作中,我们提出了 Point-MoE,这是一种专家混合(Mixture-of-Experts)架构,旨在实现3D感知中的大规模、跨领域泛化。我们表明,标准点云骨干网络在混合领域数据上训练时性能会显著下降,而 Point-MoE 采用简单的 top-k 路由策略,即使在无法访问领域标签的情况下,也能自动实现专家特化。我们的实验表明,Point-MoE 不仅优于强大的多领域基线模型,而且对未见过的领域也表现出更好的泛化能力。这项工作强调了3D理解的一个可扩展前进方向:让模型在多样化的3D数据中发现结构,而不是通过人工整理或领域监督来强加结构。
由于数据有限以及来自不同传感器和环境的高度领域异质性,缩放法则尚未对3D点云理解产生影响。我们引入了Point-MoE,这是首个用于3D的专家混合(MoE)架构,无需领域标签即可实现跨领域泛化。与在混合数据上性能下降的传统主干网络不同,Point-MoE利用top-k路由自动使专家专业化,超越了强大的基线模型,并泛化到未见过的领域。这项工作通过让模型适应真实世界3D数据的多样性,为3D感知提供了一条可扩展的路径。