⏶21
AReaL:一个用于语言推理的大规模异步强化学习系统
发表
由
Shusheng Xu 提交
作者: Wei Fu,
Jiaxuan Gao, Xujie Shen, Chen Zhu,
Zhiyu Mei, Chuyi He, Shusheng Xu, Guo Wei, Jun Mei, Jiashu Wang, Tongkai Yang, Binhang Yuan, Yi Wu
摘要
强化学习 (RL) 已成为训练大型语言模型 (LLM) 的流行范式,尤其适用于推理任务。对 LLM 进行有效的 RL 需要大规模并行化,并对高效的训练系统提出了迫切需求。现有大多数用于 LLM 的大规模 RL 系统都是同步的,通过在批处理设置中交替进行生成和训练,其中每个训练批次中的 rollout 由相同(或最新)的模型生成。这稳定了 RL 训练,但存在严重的系统级效率低下问题。生成必须等到批处理中最长的输出完成才能进行模型更新,导致 GPU 利用率不足。我们提出了 AReaL,一个完全异步的 RL 系统,它将生成与训练完全解耦。AReaL 中的 rollout 工作器持续生成新输出而无需等待,而训练工作器则在收集到一批数据后立即更新模型。AReaL 还结合了一系列系统级优化,从而显著提高了 GPU 利用率。为了稳定 RL 训练,AReaL 平衡了 rollout 和训练工作器的负载以控制数据陈旧度,并采用了一种“陈旧度增强型”PPO 变体,以更好地处理过时训练样本。在数学和代码推理基准上的大量实验表明,与使用相同数量 GPU 的最佳同步系统相比,AReaL 实现了高达 2.57 倍的训练加速,同时最终性能相匹配甚至有所提升。AReaL 的代码可在 https://github.com/inclusionAI/AReaL/ 获取。
项目页面:https://github.com/inclusionAI/AReaL
AReaL 是一个完全异步的强化学习训练系统,它融合了系统与算法的协同设计,实现了高达两倍的加速,同时保持甚至提升了最终性能。AReaL 将生成与训练完全解耦,从而显著提高了 GPU 利用率。