⏶31
GPT-5 是否已达到空间智能?一项实证研究
发表
由
Zhongang Cai 提交

作者:
Zhongang Cai, Yubo Wang, Qingping Sun, Ruisi Wang, Chenyang Gu, Wanqi Yin, Zhiqian Lin, Zhitao Yang, Chen Wei, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Jiaqi Li, Xiangyu Fan, Hanming Deng, Lewei Lu, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin,
Lei Yang

摘要
多模态模型近年来取得了显著进展。然而,它们在空间理解和推理方面仍然存在明显的局限性,而这些能力是实现通用人工智能的基础。随着据称是迄今为止最强大的人工智能模型GPT-5的发布,现在是时候审视领先模型在通往空间智能之路上所处的位置了。首先,我们提出了一个全面的空间任务分类法,统一了现有基准,并讨论了确保公平评估的挑战。然后,我们评估了最先进的专有模型和开源模型在八个关键基准上的表现,总耗费了超过十亿个令牌。我们的实证研究表明:(1)GPT-5在空间智能方面表现出前所未有的强大,但(2)在广泛的任务范围内仍未达到人类水平。此外,我们(3)确定了多模态模型面临的更具挑战性的空间智能问题,并且(4)专有模型在面对最困难的问题时并未表现出决定性的优势。此外,我们对一系列人类直观但连最先进的多模态模型都无法通过的场景进行了定性评估。
摘要
多模态模型近年来取得了显著进展。然而,它们在空间理解和推理方面仍然表现出明显的局限性,而这些是实现通用人工智能的基本能力。随着据称迄今为止最强大的人工智能模型 GPT-5 的发布,现在是时候审视领先模型在空间智能方面所处的阶段了。首先,我们提出了一个全面的空间任务分类法,统一了现有基准,并讨论了确保公平评估所面临的挑战。然后,我们对最先进的专有和开源模型在八个关键基准上进行了评估,总计花费了超过十亿个代币。我们的实证研究表明:(1)GPT-5 在空间智能方面展现出前所未有的强大能力,但(2)在广泛的任务中仍未达到人类水平。此外,我们(3)识别出对多模态模型更具挑战性的空间智能问题,并且(4)在面对最困难的问题时,专有模型并未表现出决定性优势。此外,我们还对一系列对人类来说直观但即使是最先进的多模态模型也无法解决的场景进行了定性评估。