⏶669
分享即关怀:利用集体 RL 经验共享进行高效 LM 后训练
发表
由
Ben 提交
作者: Jeffrey Amico,
Gabriel Passamani Andrade,
John Donaghy,
Ben Fielding,
Tristin Forbus,
Harry Grieve,
Semih Kara, Jari Kolehmainen, Yihua Lou, Christopher Nies,
Edward Phillip Flores Nuño,
Diogo Ortega,
Shikhar Rastogi,
Austin Virts, Matthew J. Wright






摘要
AI 生成总结
Swarm sAmpling Policy Optimization (SAPO) 是一种去中心化且异步的强化学习算法,它在无需监督微调的情况下增强了后训练语言模型,在各种硬件上实现了显著的奖励增益和可扩展性。通过强化学习(RL)对语言模型(LM)进行后训练,可以在不进行监督微调的情况下增强其复杂的推理能力,正如 DeepSeek-R1-Zero 所证明的那样。然而,有效地利用 RL 进行 LM 需要大量的并行化以扩展推理,这带来了非同寻常的技术挑战(例如延迟、内存和可靠性),以及日益增长的经济成本。我们提出了 Swarm sAmpling Policy Optimization (SAPO),一种完全去中心化和异步的 RL 后训练算法。SAPO 专为异构计算节点的去中心化网络设计,其中每个节点管理自己的策略模型,同时与网络中的其他节点“共享”其 rollout,无需对延迟、模型同质性或硬件做出任何明确假设,并且节点可以根据需要独立运行。因此,该算法避免了扩展 RL 后训练的常见瓶颈,同时也允许(甚至鼓励)新的可能性。通过采样在网络中“共享”的 rollout,它能够传播“顿悟时刻”,从而引导学习过程。在本文中,我们展示了 SAPO 在受控实验中实现了高达 94% 的累积奖励增益。我们还分享了在一次开源演示中,由 Gensyn 社区成员贡献的拥有数千个节点的网络上运行该算法在各种硬件和模型上的测试中的见解。

评论
论文作者
论文提交者
我们有一个热情的+开放的社区(他们通过帮助我们以完全开放+协作的方式扩展实验,为这项研究做出了贡献)——很可能是参与者,而不是机器人。
同意不实的评论会淹没有趣的讨论,这很可惜。
arXiv 论文解读 👉 https://arxivexplained.com/papers/sharing-is-caring-efficient-lm-post-training-with-collective-rl-experience-sharing
我们介绍了 SAPO (Swarm sAmpling Policy Optimization)——一种去中心化的 RL 后训练方法,模型可以共享经验,共同更快地学习。
问题:对 LM 进行 RL 扩展成本高昂且脆弱。
集群必须保持同步,通信瓶颈会扩大,基础设施开销会飙升。
SAPO 颠倒了模式——不是同步权重,而是节点共享解码后的 rollout。轻量级、异步且具有弹性。
为什么重要:
– 无同步开销
– 可跨异构设备(服务器、笔记本电脑,任何设备)工作
– 一个节点上的“顿悟”会通过集群传播
– 将 RL 后训练开放到最大规模
结果:
– 受控实验显示,在平衡共享(4 个本地/4 个外部)的情况下,奖励比基线提高了 94%
– 数千个社区节点在现场演示中验证了 SAPO
– 集体训练 = 更快、更强的学习
SAPO 表明,共享经验胜于单独扩展。
去中心化的模型(和人)社区可以比任何单一系统推动推理走得更远。
通过在您自己的硬件上运行 RL Swarm 节点来参与未来研究:https://github.com/gensyn-ai/rl-swarm