⏶16
MLE-Dojo:赋能机器学习工程中大型语言模型智能体的交互式环境
发表
由
Rushi Qiang 提交

作者:
Rushi Qiang,
Yuchen Zhuang,
Yinghao Li, Dingu Sagar V K,
Rongzhi Zhang, Changhao Li, Ian Shu-Hei Wong, Sherry Yang,
Percy Liang, Chao Zhang, Bo Dai



摘要
我们引入 MLE-Dojo,一个 Gym 风格的框架,用于在迭代机器学习工程 (MLE) 工作流程中系统地强化学习、评估和改进自主大型语言模型 (LLM) 智能体。与主要依赖静态数据集或单次尝试评估的现有基准不同,MLE-Dojo 提供了一个交互式环境,使智能体能够通过结构化的反馈循环进行迭代实验、调试和完善解决方案。MLE-Dojo 基于 200 多个真实的 Kaggle 挑战构建,涵盖了各种开放式 MLE 任务,这些任务经过精心策划,以反映现实的工程场景,例如数据处理、架构搜索、超参数调整和代码调试。其完全可执行的环境通过有监督微调和强化学习支持全面的智能体训练,促进迭代实验、逼真数据采样和实时结果验证。对八个前沿 LLM 进行的广泛评估表明,虽然当前模型实现了有意义的迭代改进,但它们在自主生成长时程解决方案和有效解决复杂错误方面仍存在显著局限性。此外,MLE-Dojo 灵活可扩展的架构无缝集成了各种数据源、工具和评估协议,独特地支持基于模型的智能体调优,并促进互操作性、可扩展性和可重复性。我们开源了我们的框架和基准,以促进社区驱动的创新,迈向下一代 MLE 智能体。
隆重推出 MLE-Dojo!🔥🔥
📄 论文:https://arxiv.org/abs/2505.07782
✨ 代码:https://github.com/MLE-Dojo/MLE-Dojo
MLE-Dojo 是一个 Gym 风格的框架,为在迭代机器学习工程 (MLE) 工作流程中系统地对自主大型语言模型 (LLM) 代理进行强化学习、评估和改进奠定了基础。MLE-Dojo 构建于 200 多个真实的 Kaggle 挑战之上,涵盖了经过精心策划的各种开放式 MLE 任务,以反映真实的机器学习工程场景。