INTELLECT-2:一个通过全球去中心化强化学习训练的推理模型

发表
Clem 🤗Clem 🤗 提交
作者: Prime Intellect Team, samsjaSami Jaghouar, Justus MatternJustus Mattern, Jack Min OngJack Min Ong, Jannik StJannik Straube, Manveer Basra, Aaron PazderaAaron Pazdera, Kushal ThamanKushal Thaman, Matthew Di FerranteMatthew Di Ferrante, FelixFelix Gabriel, Fares ObeidFares Obeid, Kemal Erdem, Michael Keiblinger, Johannes HagemannJohannes Hagemann

摘要

我们介绍 INTELLECT-2,这是针对一个 320 亿参数语言模型的首次全球分布式强化学习 (RL) 训练运行。与传统集中式训练不同,INTELLECT-2 使用完全异步的 RL 训练一个推理模型,该模型跨越一个由动态、异构且无需许可的计算贡献者组成的集群。为了在这种独特的基础设施下实现这样的训练运行,我们从零开始构建了各种组件:我们介绍了 PRIME-RL,这是我们专门为分布式异步强化学习构建的训练框架,该框架基于 TOPLOC(用于验证来自不可信推理工作者的 rollout 结果)和 SHARDCAST(用于高效地将策略权重从训练节点广播到推理工作者)等新组件。除了基础设施组件之外,我们还对标准 GRPO 训练方案和数据过滤技术进行了修改,这些修改对于实现训练稳定性并确保我们的模型成功学习其训练目标至关重要,从而在 320 亿参数范围内最先进的推理模型 QwQ-32B 的基础上取得了改进。我们开源了 INTELLECT-2 以及我们所有的代码和数据,希望能够鼓励并促进去中心化训练领域进行更多开放研究。
查看 arXiv 页面查看 PDF

评论

Clem 🤗Clem 🤗
论文提交者

去中心化赢了!