⏶18
LLMs 的群体智能基准测试
发表
由
Kai Ruan 提交

作者:
Kai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun

摘要
大型语言模型(LLMs)在复杂推理方面展现出潜力,然而,它们在严格约束(例如自然群体所特有的有限局部感知和通信)下运行时,在多智能体系统(MAS)中涌现协调的能力在很大程度上仍未被充分探索,尤其是在群体智能的细微之处方面。现有基准通常无法完全捕捉到智能体在不完整的时空信息下运行时出现的去中心化协调的独特挑战。为了弥合这一差距,我们引入了SwarmBench,这是一个新颖的基准,旨在系统地评估充当去中心化智能体的LLMs的群体智能能力。SwarmBench在一个可配置的2D网格环境中设置了五项基础MAS协调任务,迫使智能体主要依赖于局部感官输入(k x k视野)和局部通信。我们提出了衡量协调有效性的指标,并分析了涌现的群体动态。在零样本设置下评估了几种主流LLMs,我们发现不同任务的性能存在显著差异,凸显了局部信息约束带来的困难。虽然出现了一些协调,但结果表明在这些去中心化场景中,在不确定性下的鲁棒规划和策略形成方面存在局限性。在群体状条件下评估LLMs对于实现其在未来去中心化系统中的潜力至关重要。我们发布了SwarmBench作为一个开放的、可扩展的工具包——它基于一个可定制和可扩展的、具有明确物理特性的物理系统构建。它提供了环境、提示语、评估脚本以及生成的全面实验数据集,旨在促进基于LLM的MAS协调以及具身MAS理论基础的可复现研究。我们的代码库可在 https://github.com/x66ccff/swarmbench 获取。