Paper2Code:从机器学习科学论文中自动化生成代码

发表
seongyun_leeseongyun_lee 提交
作者: minjuMinju Seo, Jinheon BaekJinheon Baek, seongyun_leeSeongyun Lee, Sung Ju Hwang

摘要

尽管机器学习研究取得了快速发展,但相应的代码实现却往往难以获得,这使得研究人员重现结果和在前人工作的基础上进行构建变得缓慢且费力。与此同时,近期的大型语言模型(LLMs)在理解科学文档和生成高质量代码方面表现出色。受此启发,我们引入了 PaperCoder,一个多智能体 LLM 框架,它能将机器学习论文转化为功能性的代码仓库。PaperCoder 分为三个阶段:规划阶段,构建高层路线图,设计系统架构图,识别文件依赖关系,并生成配置文件;分析阶段,重点解读实现细节;生成阶段,产出模块化且考虑依赖关系的代码。此外,每个阶段都通过一组专门设计的智能体来实现,这些智能体能在整个流程中有效协作。随后,我们对 PaperCoder 根据机器学习论文生成代码实现的能力进行了评估,评估包括基于模型的评估和人工评估,特别是来自原论文作者的评估,如果作者发布了代码仓库,则将其作为事实依据。我们的结果表明 PaperCoder 在创建高质量、忠实于原论文的实现方面非常有效。此外,它在最近发布的 PaperBench 基准测试中持续展现出优势,大幅超越了强大的基线方法。
查看 arXiv 页面查看 PDF

评论

seongyun_leeseongyun_lee
论文作者
论文提交者

尽管机器学习研究迅速发展,但相应的代码实现通常不可得,这使得研究人员复现结果和在前人工作基础上进行构建变得缓慢且费力。与此同时,最近的大型语言模型(LLMs)在理解科学文档和生成高质量代码方面表现出色。受此启发,我们引入了PaperCoder,一个多智能体LLM框架,它将机器学习论文转化为可运行的代码仓库。PaperCoder分三个阶段运行:规划阶段,构建高层路线图,用图示设计系统架构,识别文件依赖关系,并生成配置文件;分析阶段,侧重于解释实现细节;生成阶段,产生模块化、感知依赖关系的代码。此外,每个阶段都由一组专门设计的智能体实例化,这些智能体旨在整个流程中有效协作。然后,我们基于模型评估和人工评估,特别是来自论文原作者的评估,对PaperCoder从机器学习论文生成代码实现的能力进行了评估,如果原作者发布了仓库,则将其作为事实真相。我们的结果表明PaperCoder在创建高质量、忠实实现方面的有效性。此外,它在最近发布的PaperBench基准测试中持续显示出优势,大幅超越了强大的基线模型。

Lucas Grativol RibeiroLucas Grativol Ribeiro

非常棒的工作!恭喜,有什么方法可以尝试一下吗?我一直在找仓库但没找到。

Jinheon BaekJinheon Baek
论文作者

感谢您的关注!我们将在近期发布代码。

minjuminju
论文作者

感谢您对我们工作的兴趣。现在我们已经发布了代码!Paper2Code。谢谢!