⏶21
协作鸿沟
发表
由
Tim Davidson 提交
作者: Tim R. Davidson, Adam Fourney, Saleema Amershi, Robert West, Eric Horvitz, Ece Kamar
摘要
AI 生成总结
对基于智能体的系统进行评估后发现,单独表现优异的模型在配对协作时性能会下降,这揭示了“协作差距”的存在,表明需要引入关注协作能力的评估和训练策略。人工智能的发展轨迹表明,我们将越来越依赖由独立开发的、拥有不同信息、权限和工具的智能体组成的基于智能体的系统。这些系统的成功将关键取决于这些异构智能体之间的有效协作,即使在部分可观察的情况下也是如此。尽管人们对此兴趣浓厚,但很少有实证研究对这种智能体间的协作进行大规模评估。我们提出了一个协作式迷宫求解基准,该基准 (i) 分离了协作能力,(ii) 可调节问题复杂度,(iii) 支持可扩展的自动评分,并且 (iv) 没有输出格式限制,保持了生态合理性。利用这个框架,我们评估了 32 个领先的开源和闭源模型在单独、同构和异构配对情况下的表现。我们的结果揭示了一个“协作鸿沟”:单独表现良好的模型在需要协作时,性能通常会大幅下降。协作可能会出现严重问题;例如,单独能很好解决迷宫的小型蒸馏模型在某些配对中可能几乎完全失败。我们发现,让较强的智能体先开始通常会改善结果,这启发我们提出了一种“接力推理”方法,即让较强的智能体先主导,然后交接给较弱的智能体,从而在很大程度上弥合了这一鸿沟。我们的发现主张 (1) 进行协作感知的评估,(2) 开发旨在增强协作能力的训练策略,以及 (3) 设计能够可靠引出智能体潜在技能的交互方式,这些指导原则同样适用于人工智能之间以及人与人工智能的协作。






我们已经发现了当今顶级 AI 模型中的“协作差距”。
在我们的新型迷宫求解基准上测试了 32 个领先的 LM,我们发现,即使是要求与自身完全相同的副本协作,那些单打独斗表现出色的模型,其性能也会“崩溃”!
为什么这很重要?AI 的未来不太可能是一个巨大的模型;它将是由多个独立的 AI 代理组成的系统,这些代理拥有不同的信息和技能。目前多代理系统的尝试依赖于“预定义”的通信协议或中央编排。相比之下,开放世界的集成可能需要灵活的、即时通信以适应真实世界的多样性。
我们提供了关于同质和异质协作的见解,并探索了一种用于有效异质部署的“中继”推理方法。我们的发现表明,协作是一种独特的技能,目前的训练策略未能捕捉到。我们不应该仅仅希望它出现——我们必须“设计”它。这意味着新的评估、训练策略和交互设计。