⏶96
胡言乱语学:用深度解读胡言乱语挑战大型语言模型
发表
由
Yang Wang 提交

作者:
Yang Wang,
Chenghao Xiao, Chia-Yi Hsiao,
Zi Yan Chang,
Chi-Li Chen,
Tyler Loakman, Chenghua Lin

摘要
我们提出了一种独特的语言现象——“Drivelology”(胡言乱语),其特征是“有深度的胡言乱语”,即语法上连贯但语用上矛盾、情感丰富或修辞上颠覆性的言论。虽然这类表达可能看起来是表面上的胡言乱语,但它们却蕴含着需要情境推断、道德推理或情感解读的隐含意义。我们发现,当前的大型语言模型(LLMs),尽管在许多自然语言处理(NLP)任务上表现出色,却始终无法理解 Drivelological 文本的多层语义。为了对此进行研究,我们构建了一个小而多样化的基准数据集,其中包含 1,200 多个精心策划的例子,并包含英语、中文、西班牙语、法语、日语和韩语的精选实例。注释工作尤其具有挑战性:每个例子都需要仔细的专家评审,以验证其是否真正反映了 Drivelology 的特征。该过程涉及多轮讨论和裁决,以解决分歧,凸显了 Drivelology 的微妙和主观性。我们在一系列 LLMs 上评估了其分类、生成和推理任务。我们的结果揭示了 LLMs 的明显局限性:模型经常将 Drivelology 与肤浅的胡言乱语混淆,产生不连贯的解释,或者完全忽略隐含的修辞功能。这些发现突显了 LLMs 在语用理解方面更深层次的表征差距,并挑战了统计流畅性等同于认知理解的假设。我们发布了我们的数据集和代码,以促进在建模超越表面连贯性的语言深度方面的进一步研究。
评论

论文作者
论文提交者
@Harikyusocials 感谢您提出的深刻问题!您注意到的差距不仅仅是中文到英文的翻译问题。许多 Drivelology 的例子都故意设置为“有深度的胡说八道”:语法连贯,但蕴含文化内涵、悖论或修辞上的颠覆性。这意味着有些短语在很大程度上依赖于先前的文化知识、社交线索,甚至日常生活中内嵌的讽刺。
当这些例子被翻译时,字面意思可以跨越语言,但 Drivelology 的意义(多层次的幽默、悖论或社会批判)却往往无法传递。例如,一个双关语、谚语的颠倒,或根植于文化的引用,可能只会引起分享该文化背景的读者的共鸣。这不仅限于中文,其他语言也可能出现类似的问题。
因此,难点不在于“翻译质量”,而在于 Drivelology 如何在多个层面编码意义,通过内隐的文化或修辞信号,而这些信号并不总是能轻易地跨越语言传递。这正是我们的论文强调 Drivelology 作为一种基准测试的原因:它突显了表面流畅性与真正文化-语义理解之间的巨大鸿沟。
隆重介绍 Drivelology(幹話文學):一种我们定义为“有深度的胡说八道”的新语言现象。我们将在 EMNLP 2025(口头报告)的论文中,展示一项包含 5 种 Drivelology 类型的 1200 多个示例的压力测试,揭示了当前最先进的大语言模型在不同方面的失效模式。