⏶4
PhysGym:在具有受控先验的交互式物理发现中对LLM进行基准测试
发表
由
Yimeng Chen 提交

作者:
Yimeng Chen, Piotr Piȩkos, Mateusz Ostaszewski, Firas Laakom, Jürgen Schmidhuber

摘要
评估基于大型语言模型的智能体的科学发现能力,特别是它们如何应对不同的环境复杂性和利用先验知识,需要专门的基准,而目前这方面还存在不足。为了解决这个问题,我们推出了 PhysGym,这是一个新颖的基准测试套件和模拟平台,用于严格评估基于大型语言模型的智能体在交互式物理环境中的科学推理能力。PhysGym 的主要贡献在于它能够精确控制提供给智能体的先验知识水平。这使得研究人员能够沿着包括问题复杂性和先验知识水平等轴线来剖析智能体的性能。该基准测试包含一套交互式模拟,在这些模拟中,智能体必须主动探测环境,在约束条件下依次收集数据,并形成关于潜在物理定律的假设。PhysGym 提供了标准化的评估协议和指标,用于评估假设的准确性和模型的保真度。我们通过展示来自基线大型语言模型的结果来证明该基准测试的实用性,展示了它基于不同的先验和任务复杂度来区分不同能力的能力。
评论

论文作者
论文提交者
此评论已隐藏。