AgentGym-RL:通过多轮强化学习训练 LLM 智能体以进行长视界决策

发表
taesiritaesiri 提交
作者: Zhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Honglin Guo, Jiaqi Liu, Rui Zheng, Junjie YeJunjie Ye, Jiazheng Zhang, Wenxiang Chen, Wei HeWei He, Yiwen Ding, Guanyu Li, Zehui Chen, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang

摘要

AI 生成总结
AgentGym-RL 是一个模块化强化学习框架,用于在不同环境中训练大型语言模型智能体,无需监督微调,并具有用于平衡探索-利用的 ScalingInter-RL。
开发能够做出连串智能决策以解决复杂现实世界任务的自主 LLM 代理是一项快速发展的最前沿研究。就像人类认知发展一样,代理被期望通过与环境的探索和交互来获取知识和技能。尽管取得了进展,但社区仍然缺乏一个统一的、交互式的强化学习(RL)框架,该框架可以在不依赖监督微调(SFT)的情况下,在多样化和现实的环境中从头开始有效地训练此类代理。为了弥合这一差距,我们引入了 AgentGym-RL,这是一个用于通过 RL 训练 LLM 代理进行多轮交互式决策的新框架。该框架具有模块化和解耦的架构,确保了高灵活性和可扩展性。它涵盖了各种现实世界的场景,并支持主流的 RL 算法。此外,我们提出了 ScalingInter-RL,一种旨在实现探索-利用平衡和稳定 RL 优化的训练方法。在早期阶段,它通过限制交互次数来强调利用,并逐渐转向具有更长视野的探索,以鼓励多样化的解决问题策略。通过这种方式,代理可以发展出更多样化的行为,并且在长视野下不易崩溃。我们进行了广泛的实验,以验证 AgentGym-RL 框架和 ScalingInter-RL 方法的稳定性和有效性。我们的代理在不同环境中的 27 个任务上与商业模型相当或优于它们。我们提供了关键见解,并将开源完整的 AgentGym-RL 框架(包括代码和数据集),以赋能研究社区开发下一代智能代理。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

开发能够做出明智决策以解决复杂现实世界任务的自主 LLM 代理是一项快速发展的最前沿领域。与人类认知发展类似,代理被期望通过与环境的探索和互动来获取知识和技能。尽管取得了进展,但社区仍然缺乏一个统一的、交互式的强化学习 (RL) 框架,该框架可以有效地从头开始训练此类代理——无需依赖监督微调 (SFT)——跨越多样化且现实的环境。为了弥合这一差距,我们推出了 AgentGym-RL,一个用于通过 RL 训练 LLM 代理进行多轮交互式决策的新框架。该框架具有模块化和解耦的架构,确保了高灵活性和可扩展性。它涵盖了各种现实世界的场景,并支持主流的 RL 算法。此外,我们提出了 ScalingInter-RL,一种专为探索-利用平衡和稳定 RL 优化而设计的训练方法。在早期阶段,它通过限制交互次数来强调利用,并逐渐转向更大范围的探索,以鼓励多样化的解决问题策略。通过这种方式,代理会发展出更多样化的行为,并且在长范围内不容易崩溃。我们进行了广泛的实验来验证 AgentGym-RL 框架和 ScalingInter-RL 方法的稳定性和有效性。在跨越不同环境的 27 个任务上,我们的代理与商业模型相当或优于商业模型。我们提供了关键的见解,并将完全开源 AgentGym-RL 框架——包括代码和数据集——以赋能研究界开发下一代智能代理。