CoMAS:通过交互奖励共同演化多智能体系统

发表
Xiangyuan XueXiangyuan Xue 提交
作者: Xiangyuan XueXiangyuan Xue, Yifan Zhou, Guibin Zhang, Zaibin Zhang, Yijiang Li, Chen Zhang, Zhenfei Yin, Philip Torr, Wanli Ouyang, Lei Bai

摘要

AI 生成总结
协同进化多智能体系统(CoMAS)使基于LLM的智能体能够通过智能体间的交互和内在奖励自主改进,取得了最先进的性能。
自进化是使基于大型语言模型(LLM)的智能体在预训练后能够持续改进其能力的核心研究课题。最近的研究见证了从无强化学习(RL)到基于 RL 的方法的转变。当前的基于 RL 的方法要么依赖于密集的外部奖励信号,要么从 LLMs 本身提取内在奖励信号。然而,这些方法与人类智能中的自进化机制不同,后者通过相互讨论和协作进行学习和改进。在这项工作中,我们引入了协同进化多智能体系统(CoMAS),这是一个新颖的框架,使智能体能够在没有外部监督的情况下,通过学习智能体间的交互来自主改进。CoMAS 从丰富的讨论动态中生成内在奖励,利用 LLM 作为裁判机制来制定这些奖励,并通过 RL 优化每个智能体的策略,从而实现去中心化和可扩展的协同进化。实验结果表明,CoMAS 在大多数评估设置下持续优于未训练的智能体,并达到了最先进的性能。消融研究证实了基于交互的奖励信号的必要性,并揭示了随着智能体数量和多样性的增加,具有有希望的可扩展性。这些发现确立了 CoMAS 作为 LLM 智能体自进化的一种新颖且有效的范式。
查看 arXiv 页面查看 PDF

评论

Xiangyuan XueXiangyuan Xue
论文作者
论文提交者

我们很高兴分享我们的最新研究成果 CoMAS:通过交互奖励共同演进的多智能体系统

在本研究中,我们探讨了基于 LLM 的智能体是否可以通过从相互交互中学习来持续改进,而不是依赖密集的外部或内在监督。

我们提出的 CoMAS 框架通过从智能体间的协作中提取内在奖励信号,并利用这些信号来指导基于强化学习的策略优化,从而解决了这一问题。

我们的初步结果表明,CoMAS 不仅可以稳定自我学习,还能提高迁移能力和多智能体协作能力。简而言之,这是迈向多智能体系统中更自主、更集体智能的一步。