TTT-Bench:一个用于评估简单且新颖的井字棋(Tic-Tac-Toe)风格游戏推理能力的基准

发表
Prakamya MishraPrakamya Mishra 提交
作者: Prakamya MishraPrakamya Mishra, Jiang Liu, Jialian Wu, Xiaodong Yu, Zicheng Liu, Emad Barsoum

摘要

大型推理模型(LRM)在包括奥林匹克数学问题在内的广泛任务中展示了令人印象深刻的推理能力,这表明它们具备复杂的推理能力。尽管许多推理基准侧重于STEM领域,但LRM在更广泛的任务领域中正确推理的能力仍未得到充分探索。在这项工作中,我们引入了TTT-Bench,这是一个旨在通过一套四种双人井字棋风格游戏来评估LRM基本战略、空间和逻辑推理能力的新基准,这些游戏是人类从小就能轻松解决的。我们提出了一种简单但可扩展的程序化方法,用于为TTT-Bench生成可验证的双人游戏问题。尽管这些游戏对人类来说微不足道,但它们需要推断对手的意图,以及游戏板的空间配置,以确保获胜。我们评估了各种最先进的LRM,发现那些擅长解决复杂数学问题的模型经常在这些简单的推理游戏中失败。进一步的测试表明,与MATH 500和AIME 2024相比,我们评估的推理模型在TTT-Bench上的平均得分分别下降了41%和5%,其中大型模型使用更短的推理轨迹实现了更高的性能,而大多数模型在TTT-Bench上简单且新颖的长期战略推理情境中表现不佳。
查看 arXiv 页面查看 PDF
TTT-Bench:一个用于评估简单且新颖的井字棋(Tic-Tac-Toe)风格游戏推理能力的基准

评论

Prakamya MishraPrakamya Mishra
论文作者
论文提交者

大型推理模型(LRMs)在广泛的任务中展现出令人印象深刻的推理能力,包括奥林匹克级别的数学问题,这表明它们具备复杂的推理能力。尽管许多推理基准测试专注于 STEM 领域,但 LRMs 在更广泛的任务领域中正确推理的能力仍未得到充分探索。在这项工作中,我们引入了 TTT-Bench,这是一个新基准,旨在通过一套由四种双人井字棋风格游戏组成的游戏来评估 LRMs 的基本战略、空间和逻辑推理能力,这些游戏是人类从小就能轻松解决的。我们提出了一种简单但可扩展的编程方法,用于为 TTT-Bench 生成可验证的双人游戏问题。尽管这些游戏对人类来说微不足道,但它们需要推断对手的意图,以及游戏板的空间配置,以确保获胜。我们评估了一系列多样化的最先进 LRMs,发现 那些擅长解决高难度数学问题的模型,却经常在这些简单的推理游戏中失败。 进一步测试表明,我们评估的推理模型在 TTT-Bench 上的平均得分比 MATH 500 和 AIME 2024 分别低 41% 和 5%,其中大型模型使用更短的推理路径取得了更高的性能,而大多数模型在 TTT-Bench 的简单新任务中,在长期战略推理情境方面表现不佳。