RAGEN:通过多轮强化学习理解大型语言模型智能体中的自我演化

发表
Canyu ChenCanyu Chen 提交
作者: Zihan WangZihan Wang, Kangrui Wang, Qineng Wang, Pingyue Zhang, Linjie Li, Zhengyuan Yang, Kefan Yu, Minh Nhat Nguyen, Licheng LiuLicheng Liu, Eli Gottlieb, Monica Lam, Yiping Lu, Kyunghyun Cho, Jiajun Wu, Li Fei-Fei, Lijuan Wang, Yejin Choi, Manling Li

摘要

将大型语言模型 (LLM) 训练为交互式智能体带来了独特的挑战,包括长周期决策和与随机环境反馈的互动。尽管强化学习 (RL) 在静态任务中取得了进展,但多轮智能体强化学习的训练仍未得到充分探索。我们提出了 StarPO (状态-思考-行动-奖励策略优化),这是一个用于轨迹级别智能体强化学习的通用框架,并引入了 RAGEN,这是一个用于训练和评估 LLM 智能体的模块化系统。我们在三种风格化环境上的研究揭示了三个核心发现。首先,我们的智能体强化学习训练显示出一种反复出现的“回声陷阱”(Echo Trap) 模式,其中奖励方差急剧上升且梯度出现尖峰;我们通过 StarPO-S 解决了这个问题,StarPO-S 是一个稳定化的变体,采用了轨迹过滤、批评者引入和解耦裁剪。其次,我们发现 RL 采样的生成将受益于多样化的初始状态、中等的交互粒度和更频繁的采样。第三,我们表明,如果没有细粒度的、考虑推理的奖励信号,智能体的推理能力很难通过多轮强化学习涌现,它们可能会表现出浅层策略或幻觉式的思考。代码和环境可在 https://github.com/RAGEN-AI/RAGEN 获取。
查看 arXiv 页面查看 PDF

评论

Canyu ChenCanyu Chen
论文提交者

项目网站:https://ragen-ai.github.io 代码和环境可在 https://github.com/RAGEN-AI/RAGEN. 获取。