当AI合作科学家失败时:SPOT——一个用于科学研究自动化验证的基准

发表
GUIJIN SONGUIJIN SON 提交
作者: GUIJIN SONGuijin Son, Jiwoo HongJiwoo Hong, Honglu Fan, Heejeong NamHeejeong Nam, Hyunwoo KoHyunwoo Ko, Seungwon LimSeungwon Lim, Jinyeop Song, Jinha Choi, Gonçalo Paulo, Youngjae Yu, Stella Biderman

摘要

大型语言模型(LLMs)的最新进展推动了自动化科学发现的愿景,这通常被称为人工智能合作科学家。迄今为止,先前的工作将这些系统视为生成式合作者,负责提出假设、合成代码或起草手稿。在这项工作中,我们探索了一种互补的应用:使用LLMs作为验证者,以自动化科学手稿的学术验证。为此,我们引入了SPOT数据集,该数据集包含83篇已发表的论文和91个足以引发勘误或撤稿的重大错误,这些错误经过实际作者和人类标注员的交叉验证。在SPOT数据集上评估最先进的LLMs后,我们发现没有任何模型的召回率超过21.1\%,精度超过6.1\%(o3取得了最好的分数,其他模型的分数接近于零)。此外,置信度估计普遍较低,并且在八次独立的运行中,模型很少重新发现相同的错误,这损害了它们的可靠性。最后,对领域专家的定性分析表明,即使是最强的模型也会犯类似学生级别误解的错误,这些错误源于理解上的偏差。这些发现凸显了当前LLM能力与可靠的人工智能辅助学术验证所需能力之间存在的巨大差距。
查看 arXiv 页面查看 PDF

评论

GUIJIN SONGUIJIN SON
论文作者
论文提交者

数据链接: amphora/SPOT-MetaData