GEM:用于Agentic LLM的Gym

发表
taesiritaesiri 提交
作者: ZichenZichen Liu, Anya Sims, Keyu DuanKeyu Duan, Changyu ChenChangyu Chen, Simon YuSimon Yu, Xiangxin ZhouXiangxin Zhou, Haotian Xu, Shaopan Xiong, Bo LiuBo Liu, Chenmien Tan, Chuen Yang Beh, Weixun Wang, Hao Zhu, Weiyan Shi, Diyi Yang, Michael Shieh, Yee Whye Teh, Wee Sun Lee, Min Lin

摘要

AI 生成总结
GEM 是一个开源环境模拟器,通过提供标准化的框架和多样化的训练和基准测试环境,促进了大型语言模型的基于经验的学习。
大型语言模型(LLM)的训练范式正从静态数据集转向基于经验的学习,在这种学习中,代理通过与复杂环境互动来获取技能。为了促进这种转变,我们引入了 GEM(General Experience Maker),一个专为 LLM 时代设计的开源环境模拟器。 GEM 类似于传统强化学习(RL)的 OpenAI-Gym,它为环境-代理接口提供了标准化的框架,包括用于高吞吐量的异步向量化执行,以及用于轻松扩展的灵活包装器。 GEM 还拥有一个多样化的环境套件、强大的集成工具,以及演示如何将 GEM 与五种流行的 RL 训练框架一起使用的单文件示例脚本。此外,我们还使用 REINFORCE 配合 Return Batch Normalization (ReBN) 在 24 个环境中提供了一套基准测试,与 GRPO 不同,ReBN 与密集逐轮奖励的完整 RL 设置兼容,并提供了更好的信用分配。最后,我们使用 GEM 在单轮和多轮设置中对 PPO、GRPO 和 REINFORCE 进行了苹果对苹果的基准测试,以阐明算法设计。GEM 除了作为训练环境外,还可以作为一个方便的评估工具包。我们希望这个框架能够帮助加速未来的代理 LLM 研究。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

大型语言模型 (LLM) 的训练范式正从静态数据集转向基于经验的学习,在此过程中,智能体通过与复杂环境的交互来习得技能。为了促进这一转变,我们提出了 GEM (General Experience Maker),一个专为 LLM 时代设计的开源环境模拟器。与传统强化学习 (RL) 的 OpenAI-Gym 类似,GEM 为环境-智能体接口提供了一个标准化的框架,包括用于高吞吐量的异步矢量化执行,以及用于易于扩展的灵活封装器。GEM 还提供了一套多样化的环境、强大的集成工具,以及展示如何使用 GEM 与五个流行的 RL 训练框架进行集成的单文件示例脚本。在此基础上,我们还提供了使用 REINFORCE with Return Batch Normalization (ReBN) 在 24 个环境中进行的一系列基线测试,与 GRPO 不同,ReBN 与密集的全 RL 设置兼容,并提供更好的信用分配。我们还使用 GEM 在单轮和多轮环境中对 PPO、GRPO 和 REINFORCE 进行了苹果对苹果的基准测试,以阐明算法设计。最后,GEM 除了作为训练环境外,还可以作为一个方便的评估工具包。我们希望这个框架能够帮助加速未来的智能体 LLM 研究。