分享即关怀:利用集体 RL 经验共享进行高效 LM 后训练

发表
BenBen 提交
作者: Jeffrey Amico, Gabriel P AndradeGabriel Passamani Andrade, john donaghyJohn Donaghy, BenBen Fielding, t forbusTristin Forbus, HHarry Grieve, Semih KaraSemih Kara, Jari Kolehmainen, Yihua Lou, Christopher Nies, Edward Phillip Flores NuñoEdward Phillip Flores Nuño, Diogo OrtegaDiogo Ortega, Shikhar RastogiShikhar Rastogi, Austin VAustin Virts, Matthew J. Wright

摘要

AI 生成总结
Swarm sAmpling Policy Optimization (SAPO) 是一种去中心化且异步的强化学习算法,它在无需监督微调的情况下增强了后训练语言模型,在各种硬件上实现了显著的奖励增益和可扩展性。
通过强化学习(RL)对语言模型(LM)进行后训练,可以在不进行监督微调的情况下增强其复杂的推理能力,正如 DeepSeek-R1-Zero 所证明的那样。然而,有效地利用 RL 进行 LM 需要大量的并行化以扩展推理,这带来了非同寻常的技术挑战(例如延迟、内存和可靠性),以及日益增长的经济成本。我们提出了 Swarm sAmpling Policy Optimization (SAPO),一种完全去中心化和异步的 RL 后训练算法。SAPO 专为异构计算节点的去中心化网络设计,其中每个节点管理自己的策略模型,同时与网络中的其他节点“共享”其 rollout,无需对延迟、模型同质性或硬件做出任何明确假设,并且节点可以根据需要独立运行。因此,该算法避免了扩展 RL 后训练的常见瓶颈,同时也允许(甚至鼓励)新的可能性。通过采样在网络中“共享”的 rollout,它能够传播“顿悟时刻”,从而引导学习过程。在本文中,我们展示了 SAPO 在受控实验中实现了高达 94% 的累积奖励增益。我们还分享了在一次开源演示中,由 Gensyn 社区成员贡献的拥有数千个节点的网络上运行该算法在各种硬件和模型上的测试中的见解。
查看 arXiv 页面查看 PDF
分享即关怀:利用集体 RL 经验共享进行高效 LM 后训练

评论

BenBen
论文作者
论文提交者

我们介绍了 SAPO (Swarm sAmpling Policy Optimization)——一种去中心化的 RL 后训练方法,模型可以共享经验,共同更快地学习。

问题:对 LM 进行 RL 扩展成本高昂且脆弱。

集群必须保持同步,通信瓶颈会扩大,基础设施开销会飙升。

SAPO 颠倒了模式——不是同步权重,而是节点共享解码后的 rollout。轻量级、异步且具有弹性。

为什么重要:

– 无同步开销

– 可跨异构设备(服务器、笔记本电脑,任何设备)工作

– 一个节点上的“顿悟”会通过集群传播

– 将 RL 后训练开放到最大规模

结果:

– 受控实验显示,在平衡共享(4 个本地/4 个外部)的情况下,奖励比基线提高了 94%

– 数千个社区节点在现场演示中验证了 SAPO

– 集体训练 = 更快、更强的学习

SAPO 表明,共享经验胜于单独扩展。

去中心化的模型(和人)社区可以比任何单一系统推动推理走得更远。

通过在您自己的硬件上运行 RL Swarm 节点来参与未来研究:https://github.com/gensyn-ai/rl-swarm

MertMert

我们更努力地工作,因为我们信任团队。

ParlakParlak

永远是团队

satyamsatyam

SAPO 完全去中心化——它不是一个庞大的系统,而是让成千上万台不同的计算机(具有不同的硬件、不同的模型版本等)在一个网络中协同工作。每个节点都训练自己的模型,但与其他节点共享学习经验。没有中央协调器,因此节点在需要时甚至可以离线工作。

DemonstormDemonstorm

很棒的研究 🐝

Elobike KenechukwuElobike Kenechukwu

SAPO 让语言模型(LM)的工作更轻松

Michael BarryMichael Barry

为什么要使用机器人来人为地夸大你研究的感知受欢迎程度?这并不能让你看起来更好,反而会让你显得不安全和不可信。

BenBen
论文作者
论文提交者

我们(作者)并没有使用机器人,但我们确实有一个活跃+开放的社区(这也是为什么我们能够进行这项研究并大规模实验的原因)。

UlfUlf

SAPO 如何处理 LM 分布式 RL 中的延迟和同步很有意思。

ParlakParlak

SAPO!

MegaMega

“共享 rollout”的想法似乎是一种无需巨大基础设施成本即可扩展的简单方法。

Agava MegerAgava Meger

去中心化和异步的方法对于异构硬件很有前景。

ParlakParlak

我们信任

LeanaLeana

节点之间传播“顿悟”的可能性是一个很棒的想法,可以加快学习速度。

RodellRodell

在受控环境中实现高达 94% 的奖励提升令人印象深刻。

SergSerg

好奇 SAPO 如何处理容量不同的异构硬件节点。

ParlakParlak

SAPO!

gensyngensyn

一种创新的去中心化 RL 后训练方法。

GareebGareeb

gensyn 拥有强大的团队,疯狂的工作,加油!

The ProThe Pro

我不太明白,但看起来不错,冲啊!

Obaidur RahmanObaidur Rahman

Sapo 是正确的方式!

Crypto GodCrypto God

我完全不知道这里发生了什么,但我绝对知道这个团队将要做伟大的事情。

Pancras AnicetPancras Anicet

团队工作扎实!加油!

h zhaoh zhao

一个帖子里有太多的机器人了。

BenBen
论文作者
论文提交者

我们有一个热情的+开放的社区(他们通过帮助我们以完全开放+协作的方式扩展实验,为这项研究做出了贡献)——很可能是参与者,而不是机器人。

同意不实的评论会淹没有趣的讨论,这很可惜。

HariHari

我相信这个团队

TYMUR TARASOVTYMUR TARASOV

这看起来很高科技!

Mehmet CanMehmet Can

非常令人兴奋的工作,sapo 的去中心化方法直接解决了 RL 后训练中的可扩展性瓶颈。跨异构节点传播“顿悟”的想法似乎是朝着更开放、更高效的集体模型改进迈出的一大步。

ekohardekohard

好团队..

干得漂亮..

Chau Nguyen DinhChau Nguyen Dinh

到目前为止,我非常享受测试网的体验!在节点之间共享 rollout 的想法感觉非常自然,而且很高兴看到 SAPO 在不同的硬件配置下表现得如此出色。

MoscowMoscow

看到人工智能如此蓬勃发展,我感到非常兴奋,也非常高兴Gensyn取得了这样的成就。

kzaopkzaop

团队工作得非常好,继续努力。

Ersan YilmazErsan Yilmaz

我们将与Gensyn一起找到人工智能的核心。做得很好。谢谢。

Oral BenguOral Bengu

伟大的事情正在发生,团队工作得非常好。

ceylanmodasceylanmodas

加油,团队!

MertMert

我们更努力地工作,因为我们信任团队。

Ramanauskiene EditaRamanauskiene Edita

W 论文

Obaidur RahmanObaidur Rahman

文 AMA?

ParlakParlak

更多工作、更多模型、更多人工智能,以及始终如一的 gensyn

Regina FilangeRegina Filange

刚读完。说实话,那张展示 Qwen2.5 0.5b 搭配 sapo 与独立运行的图表简直令人震惊。我参与了训练 😎

kunkun

我也相信这个团队

erkanerkan

勤奋且成功的团队。

MEHMET KAYAMEHMET KAYA

我们支持该团队及其努力。

Eni GrandEni Grand

机器人军队涌入评论区。评论区本应用于讨论论文本身,而不是其他任何内容。

BenBen
论文作者
论文提交者

在其他地方也发表过评论,但只是说明这项工作是通过大量参与者志愿贡献时间、精力、设备而成的巨大开放式协作完成的。

我们的社区在这里,欢迎任何人加入!

ramazan yurtalanramazan yurtalan

作为一名人工智能爱好者,我认为这种方法非常令人兴奋。模型通过跨不同机器共享经验来改进的想法,感觉是迈向更具协作性和可扩展性的人工智能的一大步。

DemonstormDemonstorm

我阅读了这篇论文,它对 Gensyn 来说非常有趣。共享 rollout 而非同步模型라는想法非常适合社区驱动的计算。这很聪明,因为它允许具有不同硬件的人们在很少协调的情况下做出贡献。拥有数千个节点的演示表明它在现实生活中有效,这很棒。

然而,信任和隐私是巨大的挑战——该系统需要有方法来过滤不良数据并保护敏感信息。此外,我们还需要看到更多跨任务和模型的测试。总的来说,如果安全性和奖励结构处理得当,这种方法可以帮助 Gensyn 更好地扩展。

IrinaIrina

看到 SAPO 在真实的社区硬件上运行,真是太棒了!即使节点速度慢或离线也能正常工作,这一点非常令人赞赏。感觉这是迈向真正开放和有弹性的 RL 训练的一步。非常喜欢“顿悟时刻”这个想法——就像网络在共同学习,而不仅仅是扩展。加油!

rasyidrasyid

sapo 正在运行

Aniedi UtahAniedi Utah

SAPO 是 LLM 的游戏规则改变者

Ridwan NurudeenRidwan Nurudeen

在 gensyn 的实验中,SAPO 使机器在获得奖励方面提高了 94%,这就像是学习的加速按钮。他们分享了一个大型开源演示中的精彩见解,每个人都参与其中。这证明了 SAPO 可以处理大量的机器,使 AI 训练更便宜、更快。