⏶5
AsyncFlow:一个用于高效LLM后训练的异步流式RL框架
发表
由
Jie Feng 提交
作者: Zhenyu Han, Ansheng You, Haibo Wang, Kui Luo, Guang Yang, Wenqi Shi, Menglong Chen, Sicheng Zhang, Zeshun Lan, Chunshi Deng, Huazhong Ji, Wenjie Liu, Yu Huang, Yixiang Zhang, Chenyi Pan, Jing Wang, Xin Huang, Chunsheng Li, Jianping Wu
摘要
强化学习 (RL) 已成为大型语言模型 (LLMs) 后训练阶段的关键技术。传统的任务共置 RL 框架存在显著的可扩展性瓶颈,而任务分离的 RL 框架在复杂的数据流以及相应的资源空闲和工作负载不平衡方面面临挑战。此外,大多数现有框架与 LLM 训练或推理引擎紧密耦合,使得支持自定义设计的引擎变得困难。为了应对这些挑战,我们提出了 AsyncFlow,一个用于高效后训练的异步流式 RL 框架。具体来说,我们引入了一个分布式数据存储和传输模块,该模块以完全流式的方式提供统一的数据管理和细粒度的调度能力。这种架构本质上促进了 RL 任务之间的自动管道重叠和动态负载平衡。此外,我们提出了一种基于生产者-消费者的异步工作流程,旨在通过在陈旧性阈值内策略性地推迟参数更新过程来最大限度地减少计算空闲时间。最后,AsynFlow 的核心能力在架构上与底层训练和推理引擎解耦,并通过面向服务的用户界面进行封装,提供模块化和可定制的用户体验。广泛的实验表明,与最先进的基线相比,吞吐量平均提高了 1.59 倍。这项工作中提出的架构为下一代 RL 训练系统设计提供了可操作的见解。

华为提出的用于高效大型语言模型后训练的异步流强化学习框架。
代码: https://gitee.com/ascend/MindSpeed-RL