⏶3
InMind:评估 LLM 捕捉和应用个体人类推理风格的能力
发表
由
taesiri 提交

作者: Zizhen Li, Chuanhao Li, Yibin Wang, Qi Chen,
Diping Song, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Kaipeng Zhang
摘要
LLM 在以人为中心的推理任务上表现出色。虽然之前的评估已经探讨了 LLM 是否能够推断意图或检测欺骗,但它们常常忽略了个体化的推理风格,这种风格会影响人们在社会背景下如何解释和行动。社交推理游戏(SDGs)为评估个体化推理风格提供了一个自然的测试平台,在相同的条件下,不同的玩家可能会采用多样但符合情境的推理策略。为了解决这个问题,我们引入了 InMind,这是一个认知基础评估框架,旨在评估 LLM 是否能够在 SDGs 中捕获和应用个性化推理风格。InMind 在结构化的游戏玩法数据中增加了回合级策略跟踪和赛后反思,这些数据是在观察者和参与者模式下收集的。它支持四项认知驱动的任务,共同评估静态对齐和动态适应。作为案例研究,我们将 InMind 应用于 Avalon 游戏,评估了 11 个最先进的 LLM。通用 LLM,即使是 GPT-4o,也经常依赖于词汇线索,难以将反思锚定在时间性的游戏玩法中或适应不断变化的策略。相比之下,像 DeepSeek-R1 这样的推理增强 LLM 表现出了风格敏感推理的早期迹象。这些发现揭示了当前 LLM 在个体化、自适应推理能力方面的关键局限性,并将 InMind 定位为迈向认知对齐的人机交互的一步。
> LLM 在以人为中心的推理任务上表现出色。尽管之前的评估已经探讨了 LLM 是否能推断意图或检测欺骗,但它们常常忽略了个体化的推理风格,这种风格会影响人们在社会背景下如何理解和行动。社交推理游戏(SDGs)为评估个体化推理风格提供了一个天然的测试平台,在相同的条件下,不同的玩家可能采用多样但符合语境的推理策略。为了解决这个问题,我们引入了 InMind,这是一个认知学基础上构建的评估框架,旨在评估 LLM 是否能在 SDGs 中捕捉和应用个性化的推理风格。InMind 增强了结构化游戏数据,在观察者和参与者模式下收集了回合级策略跟踪和赛后反思。它支持四项认知学驱动的任务,共同评估静态对齐和动态适应。作为案例研究,我们将 InMind 应用于游戏《阿瓦隆》,评估了 11 个最先进的 LLM。通用 LLM,即使是 GPT-4o,也经常依赖词汇线索,难以将反思 grounding 在时间性的游戏过程中或适应不断变化的策略。相比之下,像 DeepSeek-R1 这样的增强推理的 LLM 展现出风格敏感推理的早期迹象。这些发现揭示了当前 LLM 在个体化、自适应推理能力方面的关键局限性,并将 InMind 定位为迈向认知对齐的人机交互的一步。