PhysGym:在具有受控先验的交互式物理发现中对LLM进行基准测试

发表
Yimeng ChenYimeng Chen 提交
作者: Yimeng ChenYimeng Chen, Piotr Piȩkos, Mateusz Ostaszewski, Firas Laakom, Jürgen Schmidhuber

摘要

评估基于大型语言模型的智能体的科学发现能力,特别是它们如何应对不同的环境复杂性和利用先验知识,需要专门的基准,而目前这方面还存在不足。为了解决这个问题,我们推出了 PhysGym,这是一个新颖的基准测试套件和模拟平台,用于严格评估基于大型语言模型的智能体在交互式物理环境中的科学推理能力。PhysGym 的主要贡献在于它能够精确控制提供给智能体的先验知识水平。这使得研究人员能够沿着包括问题复杂性和先验知识水平等轴线来剖析智能体的性能。该基准测试包含一套交互式模拟,在这些模拟中,智能体必须主动探测环境,在约束条件下依次收集数据,并形成关于潜在物理定律的假设。PhysGym 提供了标准化的评估协议和指标,用于评估假设的准确性和模型的保真度。我们通过展示来自基线大型语言模型的结果来证明该基准测试的实用性,展示了它基于不同的先验和任务复杂度来区分不同能力的能力。
查看 arXiv 页面查看 PDF

评论

Yimeng ChenYimeng Chen
论文作者
论文提交者
此评论已隐藏。
Yimeng ChenYimeng Chen
论文作者
论文提交者

大型语言模型真的能像物理学家一样思考吗?

我们提出了PhysGym,一个新的基准,用于测试大型语言模型是否能够进行科学发现。PhysGym的交互式平台挑战基于大型语言模型的智能体,通过设计自己的实验来发现物理定律,独特之处在于允许研究人员控制甚至隐藏先前的知识,例如变量描述和背景信息。

success_rate_pro.png