⏶164
QeRL:超越效率——面向大型语言模型的量化增强强化学习
发表
由
Wei Huang 提交
作者: Wei Huang,
Yi Ge, Shuai Yang, Yicheng Xiao, Huizi Mao, Yujun Lin, Hanrong Ye, Sifei Liu, Ka Chun Cheung, Hongxu Yin, Yao Lu, Xiaojuan Qi, Song Han, Yukang Chen
摘要
AI 生成总结
QeRL是一个量化增强的强化学习框架,通过结合NVFP4量化、低秩自适应(LoRA)和自适应量化噪声机制,加速了大型语言模型的强化学习训练,实现了显著的加速和性能提升。我们提出了 QeRL,一个用于大型语言模型(LLMs)的量化增强强化学习(Quantization-enhanced Reinforcement Learning)框架。虽然 RL 对 LLMs 的推理能力至关重要,但它资源密集,需要大量的 GPU 内存和较长的 rollout 时间。QeRL 通过结合 NVFP4 量化和低秩适应(Low-Rank Adaptation,LoRA)来解决这些问题,从而加速 RL 的 rollout 阶段,同时减少内存开销。除了效率,我们的研究表明量化噪声增加了策略熵,增强了探索,并使得在 RL 过程中发现更好的策略成为可能。为了进一步优化探索,QeRL 引入了一种自适应量化噪声(Adaptive Quantization Noise,AQN)机制,该机制在训练过程中动态调整噪声。实验表明,QeRL 在 rollout 阶段的加速超过 1.5 倍。此外,这是第一个能够在单个 H100 80GB GPU 上进行 32B LLM RL 训练的框架,同时实现了 RL 训练的整体加速。它还在数学基准(如 7B 模型的 GSM8K (90.8%) 和 MATH 500 (77.4%))上实现了比 16 位 LoRA 和 QLoRA 更快的奖励增长和更高的最终准确性,同时与之相当。这些结果确立了 QeRL 作为 LLMs 中 RL 训练的高效且有效的框架。
TL;DR:QeRL 使 32B LLM 能够在单个 H100 GPU 上进行强化学习 (RL)。我们的研究发现,量化增强了 RL 的探索!
论文:https://arxiv.org/abs/2510.11696
代码:https://github.com/NVlabs/QeRL