⏶10
空房间里的金牌:用 Camlang 诊断 LLM 中的元语言推理
发表
由
cyl 提交
作者: Fenghua Liu,
Yulong Chen, Yixuan Liu, Zhujun Jin, Solomon Tsai,
Ming Zhong
摘要
大型语言模型(LLMs)在许多基准测试中取得了金牌级的性能,但其成功是反映了真正的推理还是模式匹配仍然不清楚。从认知科学的角度来看,一个有信息量的测试是模型是否能通过明确的元语言演绎学习掌握一门不熟悉的语言,而演绎学习是一种人类学习者可以通过元语言推理可靠地内化语法系统的范式。我们通过Camlang来解决这个问题,Camlang是一种新颖的构建语言,它展现了自然且未经证明的特征组合。Camlang包含两个明确的资源:一本语法书和一本双语词典,它们通过明确的语法规则和词汇查找来模仿成人二语学习,并使我们能够区分词法-句法、词汇语义和句子级推理中的错误。人类实验表明,这些资源足以让参与者习得Camlang并成功解决Camlang任务。为了操作化评估,我们将CommonsenseQA改编到Camlang,创建了Camlang-CSQA-v0,这是更广泛的套件中的第一个任务,解决问题需要应用语法规则和词汇映射。实验结果表明,GPT-5在英语中取得了98%的EM准确率,但在Camlang中仅为47%,远低于人类87%的性能,而其他最先进的推理LLM表现更差。人工验证进一步揭示,大多数模型的成功源于浅层词汇对齐,而GPT-5则在有限程度上展现了元语言意识,但未能像人类那样系统地掌握语法。Camlang建立了一个认知基础的评估范式,揭示了当前模型与人类元语言能力之间的根本差距。
本文介绍了一种具有类型学上合理但新颖的构造(人工)语言 Camlang,并附带一本语法书和一本词典。通过将 CommonsenseQA 改编为 Camlang,本文不仅测试了语法规则习得,还测试了显式规则与常识推理的整合。实验结果表明,GPT-5 在英语中取得了 98% 的 EM 准确率,而在 Camlang 中仅为 47%,而其他推理 LLM 的表现甚至更差。与 LLM 相比,人类参与者实验表明,这些资源足以让参与者习得 Camlang,并在 Camlang 中达到 87% 的 EM 准确率,而在英语中为 91%。人类验证分析进一步表明,大多数模型成功源于浅层词汇对齐,而 GPT-5 则在有限程度上展现了新兴的元语言意识,但没有像人类那样系统的语法掌握能力。