民主化外交:评估大型语言模型在“全面外交”中表现的利器

发表
Alex DuffyAlex Duffy 提交
作者: Alex DuffyAlexander Duffy, Samuel J Paech, Ishana Shastri, Elizabeth Karpinski, Baptiste Alloui-Cros, Tyler MarquesTyler Marques, Matthew Lyle Olson

摘要

我们提出了第一个评估工具,它使任何开箱即用、本地的大型语言模型(LLM)无需微调或专门训练即可玩《外交》游戏的完整对局。由于《外交》游戏状态的高度复杂性和信息密度,以前的工作需要前沿的LLM或进行微调。再加上比赛的高度变异性,这些因素使得《外交》游戏难以进行研究。在这项工作中,我们通过数据驱动的迭代优化了文本游戏状态表示,使得一个24B模型无需任何微调即可可靠地完成比赛。我们开发了工具来促进假设检验和统计分析,并提出了关于说服、攻击性游戏风格以及各种模型表现的案例研究。我们对许多流行的LLM进行了各种实验,发现较大的模型表现最佳,但较小的模型仍然能够正常游戏。我们还引入了关键状态分析:一种实验协议,用于深入快速迭代和分析游戏中的关键时刻。我们的工具通过消除微调的需求,使LLM战略推理的评估民主化,并提供了关于这些能力如何自然地从广泛使用的LLM中出现的见解。我们的代码可在补充材料中获取,并将开源。
查看 arXiv 页面查看 PDF
民主化外交:评估大型语言模型在“全面外交”中表现的利器

评论

Alex DuffyAlex Duffy
论文作者
论文提交者

一个评估工具,首次允许小型语言模型在不进行微调的情况下玩《外交》游戏,并展示了他们在测试中发现的奇怪行为和越狱。