SkillRL:通过递归技能增强强化学习进化智能体

发表
Peng XiaPeng Xia 提交
作者: Peng XiaPeng Xia, Jianwen Chen, Hanyang Wang, Jiaqi Liu, Kaide Zeng, Yu WangYu Wang, Siwei Han, Yiyang Zhou, Xujiang Zhao, Haifeng Chen, Zeyu Zheng, Cihang Xie, Huaxiu Yao

摘要

AI 生成总结
SkillRL 通过分层技能发现和递归策略演化使 LLM 智能体得以改进,在复杂任务上实现了卓越性能并降低了计算开销。
大语言模型 (LLM) 智能体在复杂任务中展示了令人惊叹的结果,但它们通常孤立运行,无法从过去经验中学习。现有的基于记忆的方法主要存储原始轨迹,这些轨迹往往冗余且噪声大,阻碍了智能体提取泛化所需的抽象、可重用行为模式。在本文中,我们提出了 SkillRL,这是一个通过自动技能发现和递归进化来弥合原始经验与策略改进之间鸿沟的框架。我们的方法引入了基于经验的蒸馏机制以构建分层技能库 SkillBank,一种用于通用和任务特定启发式的自适应检索策略,以及一种允许技能库在强化学习期间与智能体策略共同进化的递归进化机制。这些创新在增强推理效用的同时显著降低了 Token 占用。在 ALFWorld、WebShop 和七个搜索增强任务上的实验结果表明,SkillRL 达到了最先进的性能,优于强基准 15.3% 以上,并在任务复杂度增加时保持了稳健性。代码地址:https://github.com/aiming-lab/SkillRL
查看 arXiv 页面查看 PDF
SkillRL:通过递归技能增强强化学习进化智能体

评论

Peng XiaPeng Xia
论文作者
论文提交者

技能累积是 AI 智能体的新范式。

我们正从静态模型转向递归进化 🧬。SkillRL 证明了技能胜过规模,使得 7B 模型能够击败 GPT-4o 🚀。

进化 > 扩展。💡

论文:https://arxiv.org/abs/2602.08234
代码:https://github.com/aiming-lab/SkillRL