⏶6
FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth
发表
由
Qiran Zou 提交
作者:
Qiran Zou, Hou Hei Lam, Wenhao Zhao, Yiming Tang, Tingting Chen, Samson Yu, Tianyi Zhang, Chang Liu, Xiangyang Ji, Dianbo Liu
摘要
AI 生成总结
FML-bench 使用统一的框架和多个指标,在各种基本问题上评估自动机器学习研究代理,突显了广泛探索策略的重要性。大型语言模型 (LLM) 引发了对自动机器学习研究代理日益增长的兴趣。其中,能够自主提出
想法并进行机器学习实验的代理尤其有前景,因为它们通过根据实验结果迭代地完善想法来最大化
研究自动化并加速科学进展。然而,全面评估此类代理仍然具有挑战性。现有基准往往过分强调
工程方面而忽视了学术严谨性,从而造成了阻碍,模糊了对代理在机器学习研究中的科学能力的清
晰评估。它们还存在任务多样性有限、过分强调应用型任务而非基础研究问题,以及对现实研究场
景的可扩展性有限等问题。为了解决这些限制,我们引入了 FML-bench,一个旨在评估 8 个
多样化且基础的机器学习研究问题的自动机器学习研究代理的基准。它减少了编码负担,
强调基础问题而非特定用例,提供了高任务多样性,并且可以扩展到真实的机器学习 GitHub
存储库。此外,我们提出了一个统一的评估框架,包含五个互补的指标,旨在全面评估代理在
我们基准上的表现。我们在 FML-bench 上评估了最先进的自动研究代理,发现采用广泛研究
探索策略的代理优于那些专注于狭窄但深入探索的代理。这些发现表明,强调探索的广度可能比
仅关注渐进式改进能带来更有效的研究成果。我们的基准可在 https://github.com/qrzou/FML-bench
获取。
论文:https://arxiv.org/abs/2510.10472
代码:https://github.com/qrzou/FML-bench