⏶14
迈向动态心智理论:评估 LLM 对人类状态时间演变的适应性
发表
由
yangxiao 提交
作者:
Yang Xiao, Jiashuo Wang, Qiancheng Xu, Changhe Song, Chunpu Xu, Yi Cheng, Wenjie Li, Pengfei Liu
摘要
随着大型语言模型 (LLMs) 越来越多地参与人机交互,评估其心智理论 (ToM) 能力——特别是其追踪动态心理状态的能力——变得至关重要。虽然现有基准评估基本 ToM 能力,但它们主要关注心理状态的静态快照,忽视了表征现实世界社会互动的 temporal evolution。我们提出了 DynToM,一个新的基准,专门设计用于评估 LLMs 理解和追踪跨互联情境的心理状态时间进展的能力。通过系统的四步框架,我们生成了 1,100 个社会情境,包含 5,500 个场景和 78,100 个问题,每个都经过真实性和质量验证。我们对十个最先进 LLMs 的全面评估显示,它们的平均性能比人类低 44.7%,并且在追踪和推理心理状态变化时,性能显著下降。这一性能差距凸显了当前 LLMs 在模拟人类心理状态动态性方面的根本局限性。
DYNTOM 解决了当前心智理论 (ToM) 评估中的一个关键空白——跟踪和理解人类心理状态如何在现实世界社会互动中随时间演变的能力。尽管现有的基准(如 SocialIQA, BigToM, 和 TOMBENCH)侧重于静态快照,但我们的工作引入了一种新颖的方法,用于评估 LLMs 对跨多个相互关联场景的动态心理状态变化的理解。