⏶15
机器胡言乱语:刻画大型语言模型中新兴的对真相的漠视
发表
由
Xuandong Zhao 提交

作者: Kaiqu Liang, Haimin Hu, Xuandong Zhao, Dawn Song, Thomas L. Griffiths, Jaime Fernández Fisac
摘要
哲学家哈里·法兰克福(Harry Frankfurt)所概念化的“胡扯”(Bullshit),指的是不顾其真实性而发表的言论。虽然先前的工作探讨了大型语言模型(LLM)的幻觉和奉承现象,但我们提出“机器胡扯”(machine bullshit)作为一个总体的概念框架,使研究人员能够描述 LLM 中出现的真实性丧失这一更广泛的现象,并阐明其潜在机制。我们引入了“胡扯指数”(Bullshit Index),这是一种衡量 LLM 对真相漠视程度的新型指标,并提出了一个互补的分类法,分析了四种定性形式的胡扯:空洞言辞(empty rhetoric)、半真半假(paltering)、含糊其辞(weasel words)和未经证实的主张(unverified claims)。我们对 Marketplace 数据集、Political Neutrality 数据集以及我们专门为评估机器胡扯而设计的新 BullshitEval 基准(涵盖 2,400 个场景,涉及 100 个 AI 助手)进行了实证评估。我们的结果表明,使用人类反馈强化学习(RLHF)进行模型微调会显著加剧胡扯现象,而推理时期的思维链(CoT)提示则显著放大了特定的胡扯形式,尤其是空洞言辞和半真半假。我们还观察到在政治语境中普遍存在的机器胡扯现象,其中含糊其辞是主要策略。我们的研究结果突出了 AI 对齐中的系统性挑战,并为实现更真实的 LLM 行为提供了新见解。
项目网页: https://machine-bullshit.github.io/