⏶11
INTELLECT-2:一个通过全球去中心化强化学习训练的推理模型
发表
由
Clem 🤗 提交

作者: Prime Intellect Team,
Sami Jaghouar,
Justus Mattern,
Jack Min Ong,
Jannik Straube, Manveer Basra,
Aaron Pazdera,
Kushal Thaman,
Matthew Di Ferrante,
Felix Gabriel,
Fares Obeid, Kemal Erdem, Michael Keiblinger,
Johannes Hagemann








摘要
我们介绍 INTELLECT-2,这是针对一个 320 亿参数语言模型的首次全球分布式强化学习 (RL) 训练运行。与传统集中式训练不同,INTELLECT-2 使用完全异步的 RL 训练一个推理模型,该模型跨越一个由动态、异构且无需许可的计算贡献者组成的集群。为了在这种独特的基础设施下实现这样的训练运行,我们从零开始构建了各种组件:我们介绍了 PRIME-RL,这是我们专门为分布式异步强化学习构建的训练框架,该框架基于 TOPLOC(用于验证来自不可信推理工作者的 rollout 结果)和 SHARDCAST(用于高效地将策略权重从训练节点广播到推理工作者)等新组件。除了基础设施组件之外,我们还对标准 GRPO 训练方案和数据过滤技术进行了修改,这些修改对于实现训练稳定性并确保我们的模型成功学习其训练目标至关重要,从而在 320 亿参数范围内最先进的推理模型 QwQ-32B 的基础上取得了改进。我们开源了 INTELLECT-2 以及我们所有的代码和数据,希望能够鼓励并促进去中心化训练领域进行更多开放研究。
去中心化赢了!