MLR-Bench: 评估人工智能代理在开放式机器学习研究中的表现

发表
Hui ChenHui Chen 提交
作者: Hui ChenHui Chen, Miao XiongMiao Xiong, Yujie Lu, Wei Han, Ailin Deng, Yufei He, Jiaying Wu, Yibo Li, Yue Liu, Bryan HooiBryan Hooi

摘要

近期 AI 代理的进步展示了它们在推动和支持科学发现方面日益增长的潜力。在这项工作中,我们引入了 MLR-Bench,一个用于评估 AI 代理在开放式机器学习研究中表现的综合基准。MLR-Bench 包括三个关键组成部分:(1)来自 NeurIPS、ICLR 和 ICML 研讨会、涵盖多样化机器学习主题的 201 个研究任务;(2)MLR-Judge,一个结合基于 LLM 的评审员和精心设计的评审标准来评估研究质量的自动化评估框架;以及(3)MLR-Agent,一个能够通过想法生成、提案制定、实验和论文撰写这四个阶段完成研究任务的模块化代理脚手架。我们的框架支持对这些不同研究阶段进行分阶段评估,以及对最终研究论文进行端到端评估。我们随后使用 MLR-Bench 评估了六个前沿 LLMs 和一个高级编码代理,发现尽管 LLMs 在生成连贯的想法和结构良好的论文方面表现有效,但当前编码代理频繁地(例如,在 80% 的案例中)产生伪造或无效的实验结果——这对科学可靠性构成了主要障碍。我们通过人工评估验证了 MLR-Judge,结果显示与专家评审员高度一致,这支持了其作为研究评估可扩展工具的潜力。我们开源 MLR-Bench,以帮助社区对 AI 研究代理进行基准测试、诊断和改进,使其朝着值得信赖和透明的科学发现方向发展。
查看 arXiv 页面查看 PDF

评论

Hui ChenHui Chen
论文作者
论文提交者

近期人工智能代理的进步展示了它们在推动和支持科学发现方面的日益增长的潜力。在这项工作中,我们引入了 MLR-Bench,这是一个用于评估人工智能代理在开放式机器学习研究中的综合基准。MLR-Bench 包括三个关键组件:(1) 源自 NeurIPS、ICLR 和 ICML 工作坊的 201 个研究任务,涵盖了多样化的机器学习主题;(2) MLR-Judge,一个结合了基于 LLM 的审阅者和精心设计的评审标准来评估研究质量的自动化评估框架;(3) MLR-Agent,一个模块化的代理框架,能够通过四个阶段完成研究任务:想法生成、方案制定、实验和论文撰写。我们的框架支持对这些不同研究阶段的逐步评估,以及对最终研究论文的端到端评估。然后,我们使用 MLR-Bench 评估了六个前沿 LLMs 和一个先进的编码代理,发现虽然 LLMs 在生成连贯的想法和结构良好的论文方面表现有效,但当前的编码代理经常(例如,在 80% 的情况下)产生虚假或无效的实验结果——这对科学的可靠性构成了主要障碍。我们通过人工评估验证了 MLR-Judge,显示出与专家审阅者的高度一致性,支持了其作为研究评估可扩展工具的潜力。我们开源 MLR-Bench,以帮助社区对人工智能研究代理进行基准测试、诊断和改进,使其朝着可信赖和透明的科学发现方向发展。