评估语言模型对游戏的评估

发表
Katie CollinsKatie Collins 提交
作者: Katherine M. Collins, Cedegao E. Zhang, Graham Todd, Lance Ying, Mauricio Barba da Costa, Ryan Liu, Prafull Sharma, Adrian Weller, Ionatan Kuperwajs, Lionel Wong, Joshua B. Tenenbaum, Thomas L. Griffiths

摘要

AI 生成总结
现代推理模型比非推理模型更能符合人类对游戏的评价,但它们的性能可能会随着接近博弈论最优解而下降,尤其是在趣味性等主观评价方面。
推理不仅仅是解决问题——它还在于评估哪些问题值得解决。人工智能(AI)系统的评估主要集中在解决问题上,历史上是通过研究模型如何下象棋和围棋等游戏来完成的。在本文中,我们倡导一种新的范式,用于评估AI系统对游戏的评估。首先,我们介绍了一种评估此类评估的正式方法。然后,我们利用一个包含100多款新颖棋盘游戏和450多人类判断的大型数据集,将现代语言和推理模型生成的评估与人类和符号计算代理的评估进行比较。我们考虑两种评估查询:评估游戏的收益(或公平性)和趣味性。这些查询跨越了与AI评估设计相关的两个维度:查询计算的复杂程度以及查询量化的难度。我们的结果表明,推理模型在游戏评估方面通常比非推理语言模型更符合人类的评估。然而,我们观察到一个非单调关系:随着模型越来越接近博弈论的最优解,它们与人类数据的契合度会减弱。我们还观察到,在评估趣味性方面,模型之间的“锯齿状”现象更为明显,这与量化此查询的难度更大相符。在所有查询和游戏中,推理模型在评估查询时表现出高度可变且不可预测的资源使用情况,这表明为语言和推理模型注入更多资源理性的元推理的重要性。
查看 arXiv 页面查看 PDF

评论

Katie CollinsKatie Collins
论文提交者

人工智能中的许多评估关注模型如何解决问题或玩游戏。但推理还包括评估问题是否值得解决,游戏是否值得玩。在这项工作中,我们评估语言模型评估新颖游戏的能力(例如,评估游戏是否可能公平或有趣!)