CodeV-R1:推理增强的 Verilog 代码生成

发表
di huangdi huang 提交
作者: Yaoyu ZhuYaoyu Zhu, di huangDi Huang, Hanqi Lyu, Xiaoyun Zhang, Chongxiao Li, Wenxuan Shi, Yutong WuYutong Wu, Jianan Mu, Jinghua Wang, Yang Zhao, Pengwei Jin, Shuyao Cheng, Shengwen Liang, Xishan Zhang, Rui Zhang, Zidong Du, Qi Guo, Xing Hu, Yunji Chen

摘要

通过可验证奖励强化学习 (RLVR) 训练的大型语言模型 (LLM) 在具有明确、可自动化验证的任务上取得了突破,例如软件编程和数学问题。然而,将 RLVR 扩展到电子设计自动化 (EDA),特别是从自然语言 (NL) 规范自动生成硬件描述语言 (HDL)(如 Verilog),面临三个关键挑战:缺乏自动化和准确的验证环境、高质量自然语言-代码对的稀缺性,以及 RLVR 高昂的计算成本。为此,我们引入了 CodeV-R1,一个用于训练 Verilog 生成 LLM 的 RLVR 框架。首先,我们开发了一个基于规则的测试平台生成器,该生成器可以对“黄金参考”执行稳健的等效性检查。其次,我们提出了一种往返数据合成方法,该方法将开源 Verilog 代码片段与 LLM 生成的自然语言描述配对,通过生成的测试平台验证代码-自然语言-代码一致性,并过滤掉不等效的示例以生成高质量数据集。第三,我们采用了两阶段“先蒸馏后强化学习”训练管道:首先通过蒸馏进行推理能力的冷启动,然后是自适应 DAPO,这是一种新颖的 RLVR 算法,可以通过自适应调整采样率来降低训练成本。最终模型 CodeV-R1-7B 在 VerilogEval v2 和 RTLLM v1.1 上分别实现了 68.6% 和 72.9% 的 pass@1,超越了之前的最新技术 12~20%,同时与 671B DeepSeek-R1 的性能相匹配甚至更高。我们将发布我们的模型、训练管道和数据集,以促进 EDA 和 LLM 社区的研究。
查看 arXiv 页面查看 PDF

评论

di huangdi huang
论文作者
论文提交者

通过可验证奖励的强化学习 (RLVR) 训练的大语言模型 (LLMs) 在具有明确、自动化验证的任务(如软件编程和数学问题)上取得了突破。然而,将 RLVR 扩展到电子设计自动化 (EDA),特别是从自然语言 (NL) 规范自动生成硬件描述语言 (HDLs)(如 Verilog),面临三个关键挑战:缺乏自动化和准确的验证环境、高质量 NL-代码对的稀缺性,以及 RLVR 巨大的计算成本。为此,我们引入了 CodeV-R1,一个用于训练 Verilog 生成 LLMs 的 RLVR 框架。首先,我们开发了一个基于规则的测试平台生成器,可以对黄金参考执行鲁棒的等效性检查。其次,我们提出了一种往返数据合成方法,将开源 Verilog 代码片段与 LLM 生成的 NL 描述配对,通过生成的测试平台验证代码-NL-代码一致性,并过滤掉不等效的例子以获得高质量数据集。第三,我们采用两阶段的“蒸馏-然后-RL”训练流程:蒸馏用于推理能力的冷启动,随后是自适应 DAPO,我们新颖的 RLVR 算法,它可以通过自适应调整采样率来降低训练成本。最终的模型 CodeV-R1-7B 在 VerilogEval v2 和 RTLLM v1.1 上分别实现了 68.6% 和 72.9% 的 pass@1,超越了先前最先进水平 12%~20%,同时达到甚至超越了 671B DeepSeek-R1 的性能。我们将发布我们的模型、训练流程和数据集,以促进 EDA 和 LLM 社区的研究。