⏶14
ATLAS:一个高难度、多学科的前沿科学推理基准
发表
由
taesiri 提交
作者: Hongwei Liu,
Junnan Liu,
Shudong Liu, Haodong Duan, Yuqiang Li, Mao Su, Xiaohong Liu, Guangtao Zhai, Xinyu Fang, Qianhong Ma, Taolin Zhang,
Zihan Ma, Yufeng Zhao, Peiheng Zhou, Linchen Xiao, Wenlong Zhang, Shijie Zhou, Xingjian Ma, Siqi Sun, Jiaye Ge, Meng Li, Yuhong Liu, Jianxin Dong, Jiaying Li, Hui Wu, Hanwen Liang, Jintai Lin, Yanting Wang, Jie Dong, Tong Zhu, Tianfan Fu, Conghui He, Qi Zhang, Songyang Zhang, Lei Bai, Kai Chen
摘要
AI 生成总结
ATLAS是一个大规模的跨学科评估套件,通过提供高难度、原创和高保真度的科学问题来评估大型语言模型的推理能力,从而解决了现有基准的局限性。大型语言模型(LLMs)的快速发展导致许多既定基准的性能饱和,这使得它们区分前沿模型的能力受到质疑。与此同时,现有高难度基准常常受限于学科焦点狭窄、答案格式过于简化以及容易受到数据污染的影响,这与真实世界的科学探究存在保真度差距。为了解决这些挑战,我们推出了ATLAS(AGI导向的科学逻辑应用测试平台),这是一个大规模、高难度、跨学科的评估套件,由大约800个原创问题组成。ATLAS由领域专家(博士及以上)开发,涵盖七个核心科学领域:数学、物理、化学、生物学、计算机科学、地球科学和材料科学。其主要特点包括:(1)高原创性和抗污染性,所有问题均为新创建或经过实质性改编,以防止测试数据泄露;(2)跨学科焦点,旨在评估模型整合知识和跨科学领域推理的能力;(3)高保真度答案,优先考虑涉及多步推理和LaTeX格式表达式的复杂、开放式答案,而非简单的多项选择题;(4)严格的质量控制,采用多阶段专家同行评审和对抗性测试过程,以确保问题的难度、科学价值和正确性。我们还提出了一种使用LLM裁判团进行自动化、细致评估复杂答案的鲁棒评估范式。对领先模型的初步结果表明,ATLAS在区分其高级科学推理能力方面是有效的。我们计划将ATLAS发展成为一个长期、开放、社区驱动的平台,为实现通用人工智能的进展提供可靠的“标尺”。
大型语言模型(LLM)的快速发展导致许多既定基准的性能饱和,这使得人们对其区分前沿模型的能力产生疑问。同时,现有高难度基准通常存在学科焦点狭窄、答案格式过于简化以及容易受到数据污染等问题,这与现实世界的科学探究之间存在保真度差距。为了应对这些挑战,我们引入了ATLAS(面向AGI的科学逻辑应用测试平台),这是一个大规模、高难度、跨学科的评估套件,由大约800个原创问题组成。ATLAS由领域专家(博士及以上级别)开发,涵盖七个核心科学领域:数学、物理、化学、生物学、计算机科学、地球科学和材料科学。其主要特点包括:(1)高原创性和抗污染性,所有问题都是新创建或经过实质性改编以防止测试数据泄露;(2)跨学科焦点,旨在评估模型整合知识和跨科学领域推理的能力;(3)高保真度答案,优先考虑涉及多步推理和LaTeX格式表达式的复杂、开放式答案,而不是简单的多项选择题;(4)严格的质量控制,采用专家同行评审和对抗性测试的多阶段过程,以确保问题的难度、科学价值和正确性。我们还提出了一种强大的评估范式,使用一组LLM评委对复杂答案进行自动化、细致的评估。对领先模型的初步结果证明了ATLAS在区分其高级科学推理能力方面的有效性。我们计划将ATLAS发展成为一个长期、开放、社区驱动的平台,为实现通用人工智能的进展提供可靠的“标尺”。