⏶42
第一部分:是技巧还是陷阱?深入探讨用于大型语言模型推理的强化学习
发表
由
Jiaheng Liu 提交
作者: Zihe Liu, Jiashun Liu, Yancheng He, Weixun Wang, Jiaheng Liu, Ling Pan, Xinyu Hu, Shaopan Xiong, Ju Huang, Jian Hu, Shengyi Huang, Siran Yang, Jiamang Wang, Wenbo Su, Bo Zheng
摘要
强化学习在大型语言模型(LLM)推理中的应用已迅速成为一个重要的研究领域,相关研究在算法创新和实际应用方面都取得了显著进展。尽管如此,仍存在一些关键挑战,包括缺乏使用强化学习技术的标准化指南,以及对其潜在机制理解的碎片化。此外,不一致的实验设置、训练数据的差异以及模型初始化的不同导致了相互矛盾的结论,模糊了这些技术的关键特性,并使实践者在选择适当技术时感到困惑。本文在一个统一的开源框架内,通过严格的复现和独立评估,系统地审查了广泛采用的强化学习技术。我们通过细粒度实验,包括不同难度的数据集、模型大小和架构,分析了每种技术的内部机制、适用场景和核心原则。基于这些见解,我们为根据特定设置选择强化学习技术提供了清晰的指南,并为在LLM领域探索强化学习的实践者提供了可靠的路线图。最后,我们发现两种技术的极简组合可以使用香草PPO损失来解锁无批评者策略的学习能力。结果表明,我们简单的组合持续改善了性能,超越了GRPO和DAPO等策略。
我们为选择适用于特定设置的RL技术提供了清晰的指导,并为从业者从数据、奖励模型类型和模型大小等角度,在LLM领域驾驭RL提供了可靠的路线图。