科学大型语言模型调查:从数据基础到智能体前沿

发表
Wanghan XuWanghan Xu 提交
作者: Ming Hu, Chenglong Ma, Wei Li, Wanghan XuWanghan Xu, Jiamin Wu, Jucheng Hu, Tianbin Li, Guohang Zhuang, JiaqiLiuJiaqi Liu, Yingzhou Lu, Ying Chen, Chaoyang Zhang, Cheng Tan, jie yingJie Ying, WUGUOCHENGGuocheng Wu, Shujian Gao, Pengcheng Chen, Jiashi Lin, Haitao Wu, Lulu Chen, Fengxiang Wang, Yuanyuan Zhang, Xiangyu Zhao, Feilong Tang, Encheng SuEncheng Su, Junzhi Ning, Xinyao Liu, Ye Du, Changkai Ji, Cheng Tang, Huihui Xu, Ziyang Chen, Ziyan Huang, Jiyao Liu, Pengfei Jiang, Yizhou Wang, Chen Tang, Jianyu Wu, Yuchen Ren, Siyuan Yan, Zhonghua Wang, Zhongxing Xu, Shiyan Su, Shangquan Sun, Runkai Zhao, Zhisheng Zhang, Yu Liu, Fudi Wang, Yuanfeng Ji, Yanzhou Su, Hongming Shan, Chunmei Feng, Jiahao Xu, Jiangtao Yan, Wenhao Tang, Diping Song, Lihao Liu, Yanyan Huang, Lequan Yu, Bin Fu, Shujun Wang, Xiaomeng Li, Xiaowei Hu, Yun Gu, Ben Fei, Zhongying Deng, Benyou Wang, Yuewen Cao, Minjie Shen, Haodong Duan, Jie Xu, Yirong Chen, Fang Yan, Hongxia Hao, Jielan Li, Jiajun Du, Yanbo Wang, Imran Razzak, Chi Zhang, Lijun Wu, Conghui He, Zhaohui Lu, Jinhai Huang, Yihao Liu, Fenghua Ling, Yuqiang Li, Aoran WangAoran Wang, Qihao Zheng, Nanqing Dong, Tianfan Fu, Dongzhan Zhou, Yan Lu, Wenlong Zhang, Jin Ye, Jianfei Cai, Wanli Ouyang, Yu Qiao, Zongyuan Ge, Shixiang Tang, Junjun He, Chunfeng Song, Lei Bai, Bowen Zhou

摘要

科学大型语言模型(Sci-LLMs)正在改变科学研究中知识的表示、整合和应用方式,然而它们的进展受到科学数据复杂性的影响。本调查提供了一个全面、以数据为中心的综合分析,将 Sci-LLMs 的发展重塑为模型与其底层数据基底之间的协同演化。我们制定了一个统一的科学数据分类法和科学知识的分层模型,强调了科学语料库与通用自然语言处理数据集不同的多模态、跨尺度和领域特定的挑战。我们系统地回顾了最近的 Sci-LLMs,从通用基础模型到跨不同科学领域的专业模型,并对超过 270 个预/后训练数据集进行了广泛分析,解释了为什么 Sci-LLMs 提出了独特的需求——需要具有异质性、多尺度、充满不确定性的语料库,这些语料库要求表示能够保留领域不变性并实现跨模态推理。在评估方面,我们考察了超过 190 个基准数据集,并追踪了从静态考试到面向过程和发现的评估的转变,以及先进的评估协议。这些以数据为中心的分析突出了科学数据发展中持续存在的问题,并讨论了涉及半自动化标注流程和专家验证的新兴解决方案。最后,我们概述了一个范式转变,迈向闭环系统,其中基于 Sci-LLMs 的自主代理主动实验、验证并为动态演化的知识库做出贡献。总而言之,这项工作为构建可信赖的、持续演化的人工智能(AI)系统提供了一个路线图,这些系统能够成为加速科学发现的真正伙伴。
查看 arXiv 页面查看 PDF

评论

Wanghan XuWanghan Xu
论文作者
论文提交者

科学大型语言模型 (Sci-LLMs) 正在改变科学研究中知识的表示、整合和应用方式,但其进展受到科学数据复杂性质的影响。本调查提供了一个全面、以数据为中心的综合分析,将 Sci-LLMs 的发展重新定义为模型与其底层数据基础之间的共同演化。我们构建了一个统一的科学数据分类法和科学知识的层级模型,强调了区分科学语料库与通用自然语言处理数据集的多模态、跨尺度和领域特定挑战。我们系统地回顾了最近的 Sci-LLMs,从通用基础模型到跨不同科学领域的专业模型,并对 270 多个预/后训练数据集进行了广泛分析,解释了为什么 Sci-LLMs 会提出独特的需求——异构的、多尺度的、充满不确定性的语料库,需要能够保持领域不变性并支持跨模态推理的表示。在评估方面,我们考察了 190 多个基准数据集,并追踪了从静态考试向侧重过程和发现的评估的转变,采用了先进的评估协议。这些以数据为中心的分析突出了科学数据发展中持续存在的问题,并讨论了涉及半自动化标注流程和专家验证的新兴解决方案。最后,我们概述了一个范式转变,朝着闭环系统发展,其中基于 Sci-LLMs 的自主智能体积极实验、验证并为活的、不断演变的知识库做出贡献。总而言之,这项工作为构建可信赖的、不断演化的人工智能 (AI) 系统提供了一个路线图,使其能够成为加速科学发现的真正伙伴。

Yury PanikovYury Panikov

感谢您对 Sci-LLMs 的分类和总体审查。