齐心协力:用于协作式大型语言模型的在线强化学习

发表
Lanxiang HuLanxiang Hu 提交
作者: Yujie ZhaoYujie Zhao, Lanxiang HuLanxiang Hu, Yang Wang, Minmin Hou, Hao Zhang, Ke Ding, Jishen Zhao

摘要

AI 生成总结
AT-GRPO 是一种针对多智能体系统的定制化强化学习算法,通过解决在线强化学习中的独特挑战,显著提升了在各种任务中的性能。
多智能体系统(MAS)和强化学习(RL)被广泛用于增强大型语言模型(LLM)的智能体能力。MAS 通过基于角色的编排来提高任务性能,而 RL 则利用环境奖励来学习更强大的策略,例如 GRPO 风格的优化。然而,将在线策略 RL 应用于 MAS 仍未得到充分研究,并带来独特的挑战。在算法层面,标准的 GRPO 分组假设失效,因为提示会因角色和轮次而异。在系统层面,训练堆栈必须支持 MAS 工作流的推出以及单策略和多策略模型的在线策略更新。 我们提出了 AT-GRPO,它包括(i)一种针对 MAS 定制的、按智能体和轮次分组的 RL 算法,以及(ii)一个支持单策略和多策略模式的训练系统。在游戏、规划、编码和数学任务中,AT-GRPO 带来了显著的收益。在长时规划方面,它将单智能体 RL 基线的准确率从 14.0% 提高到 47.0%,提高到 96.0% 到 99.5%。它还提高了推理性能,在编码任务上的平均增幅为 3.87% 至 7.62%,在数学任务上的平均增幅为 9.0% 至 17.93%。代码和环境可在以下网址获取:https://github.com/pettingllms-ai/PettingLLMs
查看 arXiv 页面查看 PDF

评论

Lanxiang HuLanxiang Hu
论文作者
论文提交者

多智能体系统(MAS)和强化学习(RL)被广泛用于增强大型语言模型(LLM)的智能体能力。MAS通过基于角色的编排提高任务性能,而RL则利用环境奖励来学习更强大的策略,例如GRPO风格的优化。然而,将在线策略RL应用于MAS仍未得到充分探索,并带来独特的挑战。从算法上讲,标准的GRPO分组假设失效,因为提示会根据角色和回合而变化。从系统上讲,训练栈必须支持MAS工作流的推出以及单策略和多策略模型的在线更新。

我们提出了AT-GRPO,它包括(i)一种针对MAS量身定制的智能体和回合分组RL算法,以及(ii)一个支持单策略和多策略模式的训练系统。在游戏、规划、编码和数学任务方面,AT-GRPO带来了显著的收益。在长时规划方面,它将准确性从14.0%至47.0%的单智能体RL基线提高到96.0%至99.5%。它还提高了推理性能,在编码任务上的平均增益为3.87%至7.62%,在数学任务上的平均增益为9.0%至17.93%。