⏶27

大规模语言模型（LLM）强化学习计算的艺术

10月15日发表

10月16日由 Niels Rogge 提交

作者: Devvrit Khatri, Lovish Madaan, Rishabh Tiwari, Rachit Bansal, Sai Surya Duvvuri, Manzil Zaheer, Inderjit S. Dhillon, David Brandfonbrener, Rishabh Agarwal

摘要

AI 生成总结

一项系统性研究定义了一个分析和预测大型语言模型中强化学习扩展性的框架，识别影响计算效率的关键设计选择，并提出了一种最佳实践方法。

强化学习 (RL) 已成为训练大型语言模型 (LLM) 的核心，然而该领域缺乏可与预训练领域已建立的方法相媲美的预测性扩展方法。尽管计算预算迅速增长，但我们对如何评估扩展 RL 计算的算法改进缺乏原则性的理解。我们进行了首次大规模系统性研究，耗费超过 400,000 GPU 小时，定义了一个用于分析和预测 LLM 中 RL 扩展的原则性框架。我们拟合了 RL 训练的 S 形计算-性能曲线，并消融了一系列常见的选择，以分析它们对渐近性能和计算效率的影响。我们观察到：(1) 并非所有方法都能产生相似的渐近性能；(2) 诸如损失聚合、归一化、课程学习和离策略算法等细节主要调节计算效率，而不会显著改变渐近线；(3) 稳定、可扩展的方法遵循可预测的扩展轨迹，能够从较小规模的运行中进行外推。结合这些见解，我们提出了一种最佳实践方法 ScaleRL，并通过在单次扩展到 100,000 GPU 小时的 RL 运行中成功扩展和预测验证性能来证明其有效性。我们的工作既提供了分析 RL 扩展的科学框架，也提供了一种实用的方法，使 RL 训练能够更接近预训练领域长期实现的预测性。

查看 arXiv 页面查看 PDF

Niels Rogge

论文提交者

"今年读过的最令人印象深刻的论文" - @lewtun

大规模语言模型（LLM）强化学习计算的艺术

摘要

评论