⏶22
EXP-Bench: AI 能否进行 AI 研究实验?
发表
由
Amber 提交

作者:
Patrick Tser Jern Kon, Jiachen Liu, Xinyi Zhu, Qiuyi Ding, Jingjia Peng, Jiarong Xing, Yibo Huang, Yiming Qiu, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Matei Zaharia, Ang Chen

摘要
自动化AI研究在加速科学进步方面具有巨大潜力,然而当前的AI代理在严格、端到端的实验复杂性面前仍力不从心。我们引入了EXP-Bench,这是一个新颖的基准,旨在系统地评估AI代理在源自有影响力的AI出版物的完整研究实验中的表现。在给定研究问题和不完整起始代码的情况下,EXP-Bench挑战AI代理制定假设、设计并实施实验程序、执行它们并分析结果。为了能够以高保真度创建此类复杂而真实的任务,我们设计了一个半自主管道,从这些研究论文及其相关的开源代码中提取和构建关键的实验细节。借助该管道,EXP-Bench从51篇顶级AI研究论文中整理了461项AI研究任务。对OpenHands和IterativeAgent等领先的基于LLM的代理在EXP-Bench上的评估表明它们只具备部分能力:虽然在设计或实现正确性等单一实验方面的得分偶尔能达到20-35%,但对于完整、可执行的实验,成功率仅为0.5%。通过识别这些瓶颈并提供真实的逐步实验过程,EXP-Bench成为未来AI代理提高其进行AI研究实验能力的重要工具。EXP-Bench已在https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench开源。

评论

论文作者
在此查看 Curie 和我们的基准!https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench
AI 智能体能进行 AI 研究实验吗?