EXP-Bench: AI 能否进行 AI 研究实验?

发表
AmberAmber 提交
作者: Patrick KonPatrick Tser Jern Kon, Jiachen Liu, Xinyi Zhu, Qiuyi Ding, Jingjia Peng, Jiarong Xing, Yibo Huang, Yiming Qiu, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Matei Zaharia, Ang Chen

摘要

自动化AI研究在加速科学进步方面具有巨大潜力,然而当前的AI代理在严格、端到端的实验复杂性面前仍力不从心。我们引入了EXP-Bench,这是一个新颖的基准,旨在系统地评估AI代理在源自有影响力的AI出版物的完整研究实验中的表现。在给定研究问题和不完整起始代码的情况下,EXP-Bench挑战AI代理制定假设、设计并实施实验程序、执行它们并分析结果。为了能够以高保真度创建此类复杂而真实的任务,我们设计了一个半自主管道,从这些研究论文及其相关的开源代码中提取和构建关键的实验细节。借助该管道,EXP-Bench从51篇顶级AI研究论文中整理了461项AI研究任务。对OpenHands和IterativeAgent等领先的基于LLM的代理在EXP-Bench上的评估表明它们只具备部分能力:虽然在设计或实现正确性等单一实验方面的得分偶尔能达到20-35%,但对于完整、可执行的实验,成功率仅为0.5%。通过识别这些瓶颈并提供真实的逐步实验过程,EXP-Bench成为未来AI代理提高其进行AI研究实验能力的重要工具。EXP-Bench已在https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench开源。
查看 arXiv 页面查看 PDF
EXP-Bench: AI 能否进行 AI 研究实验?

评论

AmberAmber
论文提交者

AI 智能体能进行 AI 研究实验吗?

Patrick KonPatrick Kon
论文作者

在此查看 Curie 和我们的基准!https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench