FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth

发表
Qiran ZouQiran Zou 提交
作者: Qiran ZouQiran Zou, Hou Hei Lam, Wenhao Zhao, Yiming Tang, Tingting Chen, Samson Yu, Tianyi Zhang, Chang Liu, Xiangyang Ji, Dianbo Liu

摘要

AI 生成总结
FML-bench 使用统一的框架和多个指标,在各种基本问题上评估自动机器学习研究代理,突显了广泛探索策略的重要性。
大型语言模型 (LLM) 引发了对自动机器学习研究代理日益增长的兴趣。其中,能够自主提出 想法并进行机器学习实验的代理尤其有前景,因为它们通过根据实验结果迭代地完善想法来最大化 研究自动化并加速科学进展。然而,全面评估此类代理仍然具有挑战性。现有基准往往过分强调 工程方面而忽视了学术严谨性,从而造成了阻碍,模糊了对代理在机器学习研究中的科学能力的清 晰评估。它们还存在任务多样性有限、过分强调应用型任务而非基础研究问题,以及对现实研究场 景的可扩展性有限等问题。为了解决这些限制,我们引入了 FML-bench,一个旨在评估 8 个 多样化且基础的机器学习研究问题的自动机器学习研究代理的基准。它减少了编码负担, 强调基础问题而非特定用例,提供了高任务多样性,并且可以扩展到真实的机器学习 GitHub 存储库。此外,我们提出了一个统一的评估框架,包含五个互补的指标,旨在全面评估代理在 我们基准上的表现。我们在 FML-bench 上评估了最先进的自动研究代理,发现采用广泛研究 探索策略的代理优于那些专注于狭窄但深入探索的代理。这些发现表明,强调探索的广度可能比 仅关注渐进式改进能带来更有效的研究成果。我们的基准可在 https://github.com/qrzou/FML-bench 获取。
查看 arXiv 页面查看 PDF

评论

Qiran ZouQiran Zou
论文作者
论文提交者

论文:https://arxiv.org/abs/2510.10472
代码:https://github.com/qrzou/FML-bench