自动化LLM速通基准:重现NanoGPT改进

发表
Bingchen ZhaoBingchen Zhao 提交
作者: Bingchen Zhao, Despoina MagkaDespoina Magka, Minqi JiangMinqi Jiang, Xian Li, Roberta Raileanu, Tatiana Shavrina, Jean-Christophe Gagnon-Audet, Kelvin Niu, Shagun Sodhani, Michael Shvartsman, Andrei Lupu, Alisia Lupidi, Edan Toledo, Karen Hambardzumyan, Martin Josifoski, Thomas Foster, Lucia Cipolina-Kun, Abhishek Charnalia, Derek Dunfield, Alexander H. Miller, Oisin Mac Aodha, Jakob Foerster, Yoram Bachrach

摘要

大型语言模型(LLM)的快速发展有潜力助力科学进步。实现这一目标的关键能力是复现现有工作。为了评估AI代理在活跃研究领域复现结果的能力,我们引入了“自动化LLM速通基准”(Automated LLM Speedrunning Benchmark),该基准利用了研究社区在NanoGPT速通赛上的贡献,这是一项旨在以最短时间训练GPT-2模型的竞赛。19个速通任务中的每一个都为代理提供了之前记录的训练脚本,并可选地配有三种提示格式之一,范围从伪代码到新记录改进的论文式描述。记录本身设计为快速执行,而速通改进则涵盖了各种代码层面的变化,从高层次的算法进步到硬件感知优化。这些特性使得该基准对于改进LLM训练这一前沿问题而言既易于使用又具现实意义。我们发现,即使提供了详细的提示,最近的推理LLM结合最先进的框架也难以在我们的基准中重新实现已知的创新。因此,我们的基准提供了一种简单且非饱和的度量方法,用于衡量LLM自动化科学复现的能力,这是自主研究代理的一项必要(但非充分)技能。
查看 arXiv 页面查看 PDF

评论

Bingchen ZhaoBingchen Zhao
论文提交者

自动化大型语言模型速通基准:复现 NanoGPT 改进