重新审视多智能体辩论作为测试时扩展:一项关于条件有效性的系统性研究

发表
Euiin YiEuiin Yi 提交
作者: Yongjin Yang, Euiin YiEuiin Yi, Jongwoo KoJongwoo Ko, Kimin Lee, Zhijing Jin, Se-Young Yun

摘要

大型语言模型(LLM)能力的显著增长推动了对多智能体系统的探索,其中辩论框架正成为增强问题解决能力的有前景的途径。这些多智能体辩论(MAD)方法,通过智能体协作地提出、批判和改进论点,相对于单体模型,可能提供改进的推理、鲁棒性和多样化的视角。尽管先前的研究利用了MAD,但对其相对于自智能体方法的有效性,特别是在不同条件下的有效性,系统性的理解仍然难以捉摸。本文旨在填补这一空白,将MAD概念化为一种测试时计算扩展技术,其特点是协作改进和多样化探索能力。我们在数学推理和安全相关任务上,对MAD与强大的自智能体测试时扩展基线进行了全面的实证研究比较。我们的研究系统地考察了任务难度、模型规模和智能体多样性对MAD性能的影响。关键发现显示,对于数学推理,MAD相对于自智能体扩展优势有限,但在问题难度增加和模型能力下降时变得更有效,而智能体多样性则效果不大。相反,对于安全任务,MAD的协作改进可能会增加脆弱性,但纳入多样化的智能体配置通过协作改进过程有助于逐步降低攻击成功率。我们相信我们的发现为未来开发更有效、更具战略性部署的MAD系统提供了关键指导。
查看 arXiv 页面查看 PDF

评论

Euiin YiEuiin Yi
论文作者
论文提交者

代码库地址:https://github.com/euiin/MAD_as_TTS