⏶96

胡言乱语学：用深度解读胡言乱语挑战大型语言模型

09月04日发表

09月05日由 Yang Wang 提交

作者: Yang Wang, Chenghao Xiao, Chia-Yi Hsiao, Zi Yan Chang, Chi Li Chen Chi-Li Chen, Tyler Loakman, Chenghua Lin

摘要

我们提出了一种独特的语言现象——“Drivelology”（胡言乱语），其特征是“有深度的胡言乱语”，即语法上连贯但语用上矛盾、情感丰富或修辞上颠覆性的言论。虽然这类表达可能看起来是表面上的胡言乱语，但它们却蕴含着需要情境推断、道德推理或情感解读的隐含意义。我们发现，当前的大型语言模型（LLMs），尽管在许多自然语言处理（NLP）任务上表现出色，却始终无法理解 Drivelological 文本的多层语义。为了对此进行研究，我们构建了一个小而多样化的基准数据集，其中包含 1,200 多个精心策划的例子，并包含英语、中文、西班牙语、法语、日语和韩语的精选实例。注释工作尤其具有挑战性：每个例子都需要仔细的专家评审，以验证其是否真正反映了 Drivelology 的特征。该过程涉及多轮讨论和裁决，以解决分歧，凸显了 Drivelology 的微妙和主观性。我们在一系列 LLMs 上评估了其分类、生成和推理任务。我们的结果揭示了 LLMs 的明显局限性：模型经常将 Drivelology 与肤浅的胡言乱语混淆，产生不连贯的解释，或者完全忽略隐含的修辞功能。这些发现突显了 LLMs 在语用理解方面更深层次的表征差距，并挑战了统计流畅性等同于认知理解的假设。我们发布了我们的数据集和代码，以促进在建模超越表面连贯性的语言深度方面的进一步研究。

查看 arXiv 页面查看 PDF

Yang Wang

论文作者

论文提交者

隆重介绍 Drivelology（幹話文學）：一种我们定义为“有深度的胡说八道”的新语言现象。我们将在 EMNLP 2025（口头报告）的论文中，展示一项包含 5 种 Drivelology 类型的 1200 多个示例的压力测试，揭示了当前最先进的大语言模型在不同方面的失效模式。

Harikyu Yamauchi

非常棒的论文，似乎在将中文翻译成英文时存在很大的差距。希望该领域有进一步的研究。

Yang Wang

论文作者

论文提交者

@Harikyusocials 感谢您提出的深刻问题！您注意到的差距不仅仅是中文到英文的翻译问题。许多 Drivelology 的例子都故意设置为“有深度的胡说八道”：语法连贯，但蕴含文化内涵、悖论或修辞上的颠覆性。这意味着有些短语在很大程度上依赖于先前的文化知识、社交线索，甚至日常生活中内嵌的讽刺。

当这些例子被翻译时，字面意思可以跨越语言，但 Drivelology 的意义（多层次的幽默、悖论或社会批判）却往往无法传递。例如，一个双关语、谚语的颠倒，或根植于文化的引用，可能只会引起分享该文化背景的读者的共鸣。这不仅限于中文，其他语言也可能出现类似的问题。

因此，难点不在于“翻译质量”，而在于 Drivelology 如何在多个层面编码意义，通过内隐的文化或修辞信号，而这些信号并不总是能轻易地跨越语言传递。这正是我们的论文强调 Drivelology 作为一种基准测试的原因：它突显了表面流畅性与真正文化-语义理解之间的巨大鸿沟。

胡言乱语学：用深度解读胡言乱语挑战大型语言模型

摘要

评论