MatTools:评估用于材料科学工具的大语言模型

发表
Siyu LiuSiyu Liu 提交
作者: Siyu LiuSiyu Liu, Jiamin XuJiamin Xu, Beilin Ye, Bo Hu, David J. Srolovitz, Tongqi Wen

摘要

大型语言模型 (LLMs) 正越来越多地应用于材料科学问题,包括文献理解、性能预测、材料发现和合金设计。与此同时,人们已经开发出了广泛的基于物理的计算方法,通过这些方法可以计算材料性能。在这里,我们提出了一个基准应用,用于评估 LLMs 通过生成并安全执行基于这些基于物理的计算材料科学软件包的代码来回答材料科学问题的能力。MatTools 构建于两个互补的组件之上:一个材料模拟工具问答 (QA) 基准和一个真实世界工具使用基准。我们设计了一种自动化方法,以高效地收集真实世界的材料科学工具使用示例。QA 基准源自 pymatgen (Python 材料基因组学) 代码库和文档,包含 69,225 个问答对,用于评估 LLM 理解材料科学工具的能力。真实世界基准包含 49 个任务(138 个子任务),需要生成用于材料性能计算的可执行 Python 代码。我们对不同 LLMs 的评估得出了三个关键发现:(1)通才模型的表现优于专才模型;(2)AI 了解 AI;和 (3) 越简单越好。MatTools 提供了一个标准化框架,用于评估和改进 LLMs 在材料科学工具应用中的能力,从而促进开发更有效的 AI 系统,服务于材料科学和一般科学研究。
查看 arXiv 页面查看 PDF

评论

Siyu LiuSiyu Liu
论文作者
论文提交者

我们很高兴分享我们的最新工作“MatTools:用于材料科学工具的大型语言模型基准测试”,该工作创建了两个新基准,用于全面评估大型语言模型(LLMs)在使用材料科学工具方面的能力。

我们相信这项工作可以推动智能材料计算的发展!🤖🧠

Overview of MatTools