⏶5
多轮主体式强化学习实践指南
发表
由
Ruiyi Wang 提交

作者: Ruiyi Wang, Prithviraj Ammanabrolu
摘要
AI 生成总结
该研究通过跨不同环境和任务的多轮强化学习,研究了将大型语言模型训练为代理的有效设计选择,并为成功的实施提供了全面的指南。我们研究了通过多轮强化学习将大型语言模型作为智能体进行训练的实际有效方法和无效方法。尽管进展迅速,但现有的框架和定义是零散的,并且缺乏对哪些设计选择在不同任务中至关重要的系统化表述或分析。我们通过将设计空间分解为三个相互关联的支柱——环境、奖励和策略——来弥补这一差距,并实证地提出了一种在情境化文本领域训练 LLM 智能体的配方。具体来说,我们测试了 TextWorld 和 ALFWorld,它们是测试情境化具身推理的流行领域,以及 SWE-Gym,用于更多软件工程风格的任务。(i) 对于环境,我们分析了任务复杂度对状态和动作空间大小以及最优解长度的影响,发现即使是领域内简单的环境也能为智能体如何更好地泛化到更复杂的任务提供信号。(ii) 对于奖励,我们消融了相对奖励稀疏度,观察到虽然密集的回合级奖励可以加速训练,但性能和稳定性高度依赖于强化学习算法的选择。(iii) 对于智能体的策略,我们探讨了奖励稀疏度与有偏(PPO、GRPO)和无偏(RLOO)策略梯度方法之间的相互作用,并展示了如何在固定预算下找到最优的监督微调(SFT)到强化学习(RL)训练比例。我们将这些发现提炼成一个训练配方,指导三个支柱的协同设计,从而促进多轮智能体强化学习的研究和实践。(代码:https://github.com/pearls-lab/meow-tea-taro)
我们研究通过多轮强化学习训练大型语言模型作为代理的实际有效方法。尽管取得了快速进展,但现有的框架和定义仍然分散,并且缺乏对哪些设计选择在不同任务中至关重要的系统化表述或分析。我们通过将设计空间分解为三个相互关联的支柱——环境、奖励和策略——来弥补这一差距,并通过实证推导出一个在情境化文本领域训练大型语言模型代理的指南。具体来说,我们测试了 TextWorld 和 ALFWorld(用于测试情境化具身推理的流行领域),以及用于更偏软件工程类任务的 SWE-Gym。(i)对于环境,我们分析了任务复杂度对状态和动作空间大小以及最优解长度的影响,发现即使是领域内简单的环境也能提供关于代理如何很好地泛化到更复杂任务的信号。(ii)对于奖励,我们消融了相对奖励稀疏性,并观察到,尽管密集的回合级奖励会加速训练,但性能和稳定性高度依赖于强化学习算法的选择。(iii)对于代理的策略,我们探索了奖励稀疏性与有偏(PPO、GRPO)和无偏(RLOO)策略梯度方法之间的相互作用,并展示了如何在固定预算下找到监督微调(SFT)到强化学习(RL)训练的最佳比例。我们将这些发现提炼成一个培训指南,指导跨越三个支柱的协同设计,从而促进多轮代理强化学习的研究和实践工作。代码:https://github.com/pearls-lab/meow-tea-taro