⏶93
论扩展大语言模型终端能力的数据工程
发表
由
renjie 提交
作者: Renjie Pi, Grace Lam, Mohammad Shoeybi, Pooya Jannaty, Bryan Catanzaro, Wei Ping
摘要
AI 生成总结
研究人员开发了一种合成任务生成流水线并分析了数据策略,以提升终端智能体的性能,创建了大规模数据集和在基准测试中表现优于更大规模同类产品的模型。尽管最近大型语言模型的终端能力取得了快速进展,但最先进的终端代理(terminal agents)背后的训练数据策略在很大程度上仍未公开。我们通过对终端代理数据工程实践的系统研究填补了这一空白,并做出了两个主要贡献:(1) Terminal-Task-Gen,一个轻量级的合成任务生成流水线,支持基于种子和基于技能的任务构建;(2) 对数据和训练策略的全面分析,包括过滤、课程学习、长上下文训练和缩放行为。我们的流水线产出了 Terminal-Corpus,一个大规模的终端任务开源数据集。利用该数据集,我们训练了从 Qwen3 (8B, 14B, 32B) 初始化的 Nemotron-Terminal 系列模型,这些模型在 Terminal-Bench 2.0 上取得了显著收益:Nemotron-Terminal-8B 从 2.5% 提升至 13.0%,Nemotron-Terminal-14B 从 4.0% 提升至 20.2%,Nemotron-Terminal-32B 从 3.4% 提升至 27.4%,达到了显著更大模型的性能水平。为了加速该领域的研究,我们在 https://huggingface.co/collections/nvidia/nemotron-terminal 开源了我们的模型检查点和大部分合成数据集。
尽管近期大型语言模型在终端能力方面取得了快速进展,但最先进的终端智能体背后的训练数据策略在很大程度上仍未公开。我们通过对终端智能体数据工程实践的系统研究填补了这一空白,主要贡献有两点:(1) Terminal-Task-Gen,一个轻量级的合成任务生成流水线,支持基于种子和基于技能的任务构建;(2) 对数据和训练策略的全面分析,包括过滤、课程学习、长上下文训练和缩放行为。我们的流水线产出了 Terminal-Corpus,一个大规模的终端任务开源数据集。利用该数据集,我们训练了 Nemotron-Terminal 系列模型,这些模型初始化自 Qwen3 (8B, 14B, 32B),并在 Terminal-Bench 2.0 上取得了显著收益:Nemotron-Terminal-8B 的性能从 2.5% 提升至 13.0%,Nemotron-Terminal-14B 从 4.0% 提升至 20.2%,而 Nemotron-Terminal-32B 从 3.4% 提升至 27.4%,达到了规格大得多的模型的性能水平。