胡言乱语学:用深度解读胡言乱语挑战大型语言模型

发表
Yang WangYang Wang 提交
作者: Yang WangYang Wang, Chenghao XiaoChenghao Xiao, Chia Yi HsiaoChia-Yi Hsiao, Zi Yan ChangZi Yan Chang, Chi Li ChenChi-Li Chen, Tyler LoakmanTyler Loakman, Chenghua Lin

摘要

AI 生成总结
大型语言模型难以理解 Drivelological 文本中细致入微、依赖语境的含义,这种文本表面上毫无意义,但却包含更深层次的语义。
我们提出了一种独特的语言现象——“Drivelology”(胡言乱语),其特征是“有深度的胡言乱语”,即语法上连贯但语用上矛盾、情感丰富或修辞上颠覆性的言论。虽然这类表达可能看起来是表面上的胡言乱语,但它们却蕴含着需要情境推断、道德推理或情感解读的隐含意义。我们发现,当前的大型语言模型(LLMs),尽管在许多自然语言处理(NLP)任务上表现出色,却始终无法理解 Drivelological 文本的多层语义。为了对此进行研究,我们构建了一个小而多样化的基准数据集,其中包含 1,200 多个精心策划的例子,并包含英语、中文、西班牙语、法语、日语和韩语的精选实例。注释工作尤其具有挑战性:每个例子都需要仔细的专家评审,以验证其是否真正反映了 Drivelology 的特征。该过程涉及多轮讨论和裁决,以解决分歧,凸显了 Drivelology 的微妙和主观性。我们在一系列 LLMs 上评估了其分类、生成和推理任务。我们的结果揭示了 LLMs 的明显局限性:模型经常将 Drivelology 与肤浅的胡言乱语混淆,产生不连贯的解释,或者完全忽略隐含的修辞功能。这些发现突显了 LLMs 在语用理解方面更深层次的表征差距,并挑战了统计流畅性等同于认知理解的假设。我们发布了我们的数据集和代码,以促进在建模超越表面连贯性的语言深度方面的进一步研究。
查看 arXiv 页面查看 PDF

评论

Yang WangYang Wang
论文作者
论文提交者

隆重介绍 Drivelology(幹話文學):一种我们定义为“有深度的胡说八道”的新语言现象。我们将在 EMNLP 2025(口头报告)的论文中,展示一项包含 5 种 Drivelology 类型的 1200 多个示例的压力测试,揭示了当前最先进的大语言模型在不同方面的失效模式。

Harikyu YamauchiHarikyu Yamauchi

非常棒的论文,似乎在将中文翻译成英文时存在很大的差距。希望该领域有进一步的研究。

Yang WangYang Wang
论文作者
论文提交者

@Harikyusocials 感谢您提出的深刻问题!您注意到的差距不仅仅是中文到英文的翻译问题。许多 Drivelology 的例子都故意设置为“有深度的胡说八道”:语法连贯,但蕴含文化内涵、悖论或修辞上的颠覆性。这意味着有些短语在很大程度上依赖于先前的文化知识、社交线索,甚至日常生活中内嵌的讽刺。

当这些例子被翻译时,字面意思可以跨越语言,但 Drivelology 的意义(多层次的幽默、悖论或社会批判)却往往无法传递。例如,一个双关语、谚语的颠倒,或根植于文化的引用,可能只会引起分享该文化背景的读者的共鸣。这不仅限于中文,其他语言也可能出现类似的问题。

因此,难点不在于“翻译质量”,而在于 Drivelology 如何在多个层面编码意义,通过内隐的文化或修辞信号,而这些信号并不总是能轻易地跨越语言传递。这正是我们的论文强调 Drivelology 作为一种基准测试的原因:它突显了表面流畅性与真正文化-语义理解之间的巨大鸿沟。

Mr RooTMr RooT

你好,我理解这些数据传达的复杂性(它需要一个不仅精通语言,还了解当地风俗和文化背景的读者)。真正让我印象深刻的是其来源和部分分析。总的来说,我不会同意西班牙结果的40-45%的观点,而且有些双关语在感叹号和问号的使用上非常特殊,而这些是缺失的,但结果却给出了有趣的解读(主要是因为我们现在触摸屏上不再使用¿和¡,但我们很懒,这些文本缺乏良好的标点符号,而且没有它们会严重弄错一句话的意思——比如流派变得非常必要)。墨西哥西班牙语和欧洲(卡斯蒂利亚?)西班牙语之间存在某种文化互动,但在大约10分钟内,我发现了两个与西班牙现代历史相关的语境或悖论分配,它们非常非常“边缘”(我可能能找到来源,而且它们并非源于西班牙语,而是某种法国人谈论我们前民主时代的说法),这并非品味问题,而是真的让人感到尴尬,因为我从未听过类似的比喻。其他一些非西班牙语但带有西班牙文字词的文本也有拼写错误(mosa -> mosca),但结果通过最接近的上下文推测得到了解决,并且做出了很好的假设,但这又是对初始糟糕数据进行弥补。

Yang WangYang Wang
论文作者
论文提交者

@SrRooT 非常感谢您花时间阅读我们的工作并分享如此深刻的见解。我们非常感谢您对西班牙语样本的密切关注。

我们数据集中的所有“Drivelology”(戏谑学)示例都是直接从互联网上收集的,未做任何修改,这解释了为什么有些示例包含错别字(例如,mosa → mosca)或非标准标点符号。我们认识到这有时会扭曲预期的文字游戏,正如您所指出的,模型(有时甚至是标注员)最终会根据不完整的输入来填补空白。

在文化方面,您说得非常对,一些样本确实反映了墨西哥西班牙语和欧洲西班牙语(不确定是否是卡斯蒂利亚语)之间的互动,并且某些悖论性或尖锐的引用可能根植于对西班牙现代史的非西班牙语(例如,法语)的解读。这些都是重要的观察:我们没有刻意筛选这些案例,正是因为我们的目标是捕捉“Drivelology”在线上的传播方式,“原汁原味”,即使在某些文化背景下,其幽默感可能会显得尴尬或令人不适。

正如我们在论文的“局限性”部分提到的,这项工作仍在进行中,数据集将得到扩展和完善。目前,我们没有区分西班牙语的不同变体(墨西哥语 vs. 卡斯蒂利亚语等),主要是因为我们缺乏既具备地区专业知识又熟悉“Drivelology”惯例的标注员。即使在其他语言中,许多母语者仍然难以理解这些文本(即他们自己语言中的“Drivelology”),因为幽默感往往依赖于非常特定的修辞线索。

我们非常欢迎社区的贡献。如果您或其他任何人有兴趣,我们非常乐意接收您向我们的 GitHub 存储库提交的贡献或拉取请求,以帮助改进西班牙语变体的覆盖范围和代表性。

Mr RooTMr RooT

我只会评论一点,主要是关于尝试区分口音,甚至尝试利用这一点来让模型理解欧洲和拉丁美洲方面的差异。随着我们开发出更好的模型,这一点对我来说正变得越来越重要。最近,我放弃了在任何提示中使用西班牙语的尝试,因为随着每一个新模型的出现,我的体验越来越差。

我无法将这种影响扩展到我的母语之外,但在自然对话之外,我停止了或尝试停止在任何技术性事务上使用西班牙语,因为它给我的代价不仅仅是时间。我在这方面遇到很多西班牙语和特定模型的问题,首先,关于口音和文化偏好,每个人都有自己的喜好。主要问题是使用所谓的欧洲西班牙语与拉丁美洲西班牙语之间的“移植”问题。语音模型倾向于倾向于非常清晰的拉丁美洲口音,即使我克隆了自己的声音(这非常滑稽,因为我有一些独特的口音,你在其他地方听不到)。有一个非常糟糕的例子,这本来不是一个问题,但现在只有 Deepseek/Claude 模型表现正常——这种情况发生过几次,而且代价很高,因为没有什么能挽回整个上下文,反而扭转了问题。一个常用词,比如 drive,driver,对我来说有两个强烈的用法:一个是作为技术/计算机术语的 English 词,另一个是像开车(vehicles)那样。我的拉丁美洲的同行们使用一种特定的术语,这没问题,但却破坏了整个短语的含义。这不仅仅是翻译问题,而是当模型将任何西班牙语内容放入其中时,就会产生一种关于汽车的糟糕偏见,而我根本没有使用任何与驾驶有关的词。我发现它们试图将某种与汽车有关的东西塞进计算器 UI 的演示中(这几乎是我现在的草莓测试,因为推理模型在 Python 代码中也对方向盘感到困难)。这很糟糕,因为它们曾经工作过,但不知何故,上下文中的某个东西,我提供的或者模型给出的答案,开始引导模型产生关于汽车的单一想法,比如汽车仪表盘,或者任何它们凭空捏造的东西,却因此白白浪费了 10-15 美元的上下文,因为我无法让它们回到正轨。这开始变得有趣了(我祈祷永远不会遇到一个长达 3 小时的 Claude 运行,在 UI 中用汽车变速箱的表情符号显示一个带有 1 2 3 4 个位置的滑块,那将是一个昂贵的笑话)。我使用了“manejar”这个词,它应该翻译为“控制”,但在拉丁美洲——其中一部分,我们有太多的变体——它表示“开车”。在我的上下文中,它从来都与汽车无关,即使我能理解上下文,模型也会直接将其视为汽车,而我根本没有试图表达任何与此相关的内容,它们只是喜欢消耗 token。

关于贡献,我需要检查使用许可,但我对这个话题有几个想法,相当于数百小时的语音工作量。我们有一些关于合理使用的奇怪之处,因为如果你在笑话中带有文化背景,而且一个转录无法声称任何东西,但可以声称文化参考。为聋人/有听力障碍人士准备的大量转录文本,带有关于语气的标签,这是非常庞大的,并且可以公开用于任何用途。

祝未来的论文好运!(不要带变速箱)

Yang WangYang Wang
论文作者
论文提交者

您好,@SrRooT,再次感谢您的跟进。

我们的工作使用 Drivelology 作为特定基准来测试这一故障,但根本问题更为广泛。该模型默认采用表面层面的统计关联,而不是执行真正的上下文推理。

为澄清许可,我们的 DrivelHub 数据集是在 cc-by-nc-4.0 许可下发布的。这意味着,只要给出署名,就可以将其用于任何非商业目的并进行改编。我们希望这符合您设想中的数据。

再次感谢您的精彩讨论和好心情!

Tom ZakTom Zak

为什么你的研究中没有使用任何SOTA LLM?这难道不是一个主要的缺陷吗,因为即使是最小的LLM在理解更复杂的语言结构方面也大多无济于事?

Yang WangYang Wang
论文作者
论文提交者

@Tomoomo 当我们在2025年初进行这项研究时,我们肯定旨在使用的最好的模型。当时,像GPT-4.5和Claude 3.7这样的模型是顶尖的。然而,正如我们在论文的“局限性”部分提到的,以我们的规模运行这些模型的实验,不幸超出了我们的预算。API成本非常高,我们经常自掏腰包来维持项目的进行。在开源方面,我们受到硬件的限制。我们在4090机器上运行了实验,Qwen3-14B模型是我们能够可靠地容纳和测试的最大模型。如果我们有资源,我们很乐意包含更大的模型。

关于您提到的“小型LLM对于复杂语言‘基本上无用’”的第二点,我们的发现实际上描绘了一幅更复杂、我们认为也更引人入胜的画面。性能简单地随规模增长的观点并不是我们普遍观察到的。例如,让我们比较一下我们在最困难的任务之一——“困难”叙述选择(MCQA)上,我们的开源模型与更大的专有模型的性能。如表1所示,我们的qwen3-8b-instruct模型达到了26.78%的准确率。这一结果是一个显著的离群值,其表现优于Claude-3.5-haiku(11.56%)和gpt-4o-mini(4.67%)。这表明一个80亿参数的小型模型可以在特定领域发展出一种微妙推理的专门能力,甚至超越了更大、最先进的模型。此外,当我们分析Qwen3模型系列(从40亿到140亿参数)内的性能时,“越大越好”的论调再次受到挑战。如表2所示,规模效应并非线性。对于“Drivelology Detection”任务,当使用普通话提示时,8B模型的准确率为78.81%,显著优于更大的14B模型的71.78%。我们在“Tagging”任务中也看到了另一种非线性模式,其性能在8B规模时有所下降,然后在14B规模时恢复。

总而言之,这些结果表明,模型规模与理解复杂“Drivelology”语言的能力之间的关系并非一条直线。小型和中型模型并非“无用”,而是可以在特定的语言相关任务中拥有独特且有时更优越的能力。