LTD-Bench:通过让大型语言模型绘画来评估它们

发表
Ke LiKe Li 提交
作者: Liuhao Lin, Ke Li, Zihan Xu, Yuchen Shi, Yulei QinYulei Qin, Yan Zhang, Xing Sun, Rongrong Ji

摘要

AI 生成总结
LTD-Bench 通过要求大型语言模型生成视觉输出,评估其空间推理能力,揭示了它们将语言映射到空间概念的能力的显著局限性。
当前对大型语言模型(LLMs)的评估范式在AI研究中存在一个关键的盲点——它们依赖不透明的数值指标,这些指标掩盖了空间推理方面的根本局限性,同时未能提供对模型能力的直观理解。这种缺陷导致了报告性能与实际能力之间危险的脱节,尤其是在需要理解物理世界的应用中。我们引入了LTD-Bench,这是一个突破性的基准,它通过要求模型通过点阵或可执行代码生成绘图,将LLM评估从抽象分数转化为直接可观察的视觉输出。这种方法即使对非专业人士也能立即揭示空间推理的局限性,弥合了统计性能与直观评估之间的根本差距。LTD-Bench实施了一套全面的方法论,包括互补的生成任务(测试空间想象力)和识别任务(评估空间感知),涵盖三个渐进式挑战难度级别,系统地评估了关键语言-空间映射的两个方向。我们对最先进模型的广泛实验揭示了一个惊人的能力差距:即使在传统基准上取得令人印象深刻结果的LLMs,在建立语言和空间概念之间的双向映射方面也表现出严重的缺陷——这是一个根本性的局限性,它损害了它们作为真正世界模型的潜力。此外,LTD-Bench的视觉输出能够进行强大的诊断分析,为研究模型相似性提供了一种潜在方法。
查看 arXiv 页面查看 PDF

评论

Ke LiKe Li
论文提交者

当我们无法再信任基准数字时,如何评估LLM?

来自LTD-Bench的回答:让他们画

LTD-Bench