AbGen:评估大型语言模型在科学研究中消融研究设计和评估方面的能力

发表
Yilun ZhaoYilun Zhao 提交
作者: Yilun Zhao, Weiyuan Chen, Zhijian Xu, Manasi Patwardhan, Yixin Liu, Chengye Wang, Lovekesh Vig, Arman Cohan

摘要

我们推出了AbGen,这是第一个旨在评估大型语言模型在科学研究中设计消融研究能力的基准测试。AbGen包含1500个由专家标注的示例,这些示例来源于807篇自然语言处理论文。在该基准测试中,大型语言模型需要根据给定的研究上下文,为一个指定的模块或过程生成详细的消融研究设计。我们对DeepSeek-R1-0528和o4-mini等领先大型语言模型的评估表明,在消融研究设计的重要性、忠实性和合理性方面,这些模型与人类专家之间存在显著的性能差距。此外,我们证明了当前自动化评估方法对于我们的任务并不可靠,因为它们与人工评估相比显示出显著差异。为了更好地探究这一点,我们开发了AbGen-Eval,这是一个元评估基准测试,旨在评估常用自动化评估系统在衡量大型语言模型在我们任务上的表现时的可靠性。我们在AbGen-Eval上研究了各种“大型语言模型即评审”系统,为未来开发更有效、更可靠的基于大型语言模型的复杂科学任务评估系统提供了见解。
查看 arXiv 页面查看 PDF

评论

Yilun ZhaoYilun Zhao
论文提交者

我们引入了 AbGen,这是第一个旨在评估大型语言模型在设计科学研究消融研究方面能力的基准。AbGen 包含 1,500 个由专家标注的示例,这些示例来源于 807 篇 NLP 论文。在此基准中,大型语言模型的任务是根据给定的研究背景,为一个指定的模块或过程生成详细的消融研究设计。