⏶18
大型语言模型可以识别科学研究中的关键局限性吗?人工智能研究论文的系统评估
发表
由
Yilun Zhao 提交

作者: Zhijian Xu,
Yilun Zhao, Manasi Patwardhan, Lovekesh Vig, Arman Cohan

摘要
同行评审是科学研究的基础,但不断增长的出版物数量加剧了这种专业密集型过程的挑战。虽然大型语言模型 (LLM) 在各种科学任务中展现出潜力,但它们在协助同行评审方面的潜力,尤其是在识别论文局限性方面的潜力,仍有待研究。我们首先提出了一个科学研究中局限性类型的综合分类法,重点是人工智能。在这一分类法的指导下,为了研究局限性,我们提出了 LimitGen,这是第一个用于评估 LLM 支持早期反馈和补充人工同行评审能力的综合基准。我们的基准包含两个子集:LimitGen-Syn,一个通过对高质量论文进行受控扰动而精心创建的合成数据集;以及 LimitGen-Human,一个真实的人工撰写的局限性集合。为了提高 LLM 系统识别局限性的能力,我们通过文献检索来增强它们,这对于将识别局限性建立在先前的科学发现之上至关重要。我们的方法增强了 LLM 系统在研究论文中生成局限性的能力,使它们能够提供更具体和建设性的反馈。
在这篇 ACL 2025 论文中,我们提出了 LimitGen,这是第一个全面的基准,用于评估 LLM 支持早期反馈和补充人类同行评审的能力。我们的基准包含两个子集:LimitGen-Syn,一个通过对高质量论文进行受控扰动而精心创建的合成数据集;以及 LimitGen-Human,一个真实人类撰写的局限性集合。为了提高 LLM 系统识别局限性的能力,我们利用文献检索来增强它们,这对于将识别局限性建立在先前的科学发现基础上至关重要。我们的方法增强了 LLM 系统在研究论文中生成局限性的能力,使其能够提供更具体和建设性的反馈。