⏶17
MLRC-Bench: 语言智能体可以解决机器学习研究挑战吗?
发表
由
Yunxiang Zhang 提交
作者:
Yunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang
摘要
现有的大型语言模型(LLM)智能体在科学发现方面的评估缺乏客观的基线和指标来评估他们提出的方法的可行性。为了解决这个问题,我们引入了 MLRC-Bench,一个旨在量化语言智能体如何有效地应对具有挑战性的机器学习(ML)研究竞赛的基准。我们的基准突出了需要新颖方法论的开放性研究问题,这与最近的基准(例如,OpenAI 的 MLE-Bench(Chan 等人,2024 年)和 METR 的 RE-Bench(Wijk 等人,2024 年))形成对比,后者侧重于通过充分的工程努力在很大程度上可以解决的成熟研究任务。与先前的工作(例如,AI Scientist(Lu 等人,2024b))不同,后者通过使用 LLM 作为评判来评估端到端智能体管道,MLRC-Bench 衡量了提出和实施新颖研究方法并使用新提出的严格协议和客观指标对其进行评估的关键步骤。我们精心策划的 7 个竞赛任务套件揭示了 LLM 智能体的重大挑战。即使是表现最佳的测试智能体(MLAB 下的 gemini-exp-1206(Huang 等人,2024a))也仅缩小了基线和顶级人类参与者分数之间差距的 9.3%。此外,我们的分析揭示了 LLM 评判的创新与其在尖端 ML 研究问题上的实际表现之间的错位。MLRC-Bench 是一个动态基准,旨在随着新的 ML 竞赛不断增长,以鼓励对 AI 的研究能力进行严格和客观的评估。
排行榜: https://huggingface.co/spaces/launch/MLRC_Bench
代码: https://github.com/yunx-z/MLRC-Bench