预训练中根植,微调中摇摆:LLM中认知偏差起源的案例研究

发表
Itay ItzhakItay Itzhak 提交
作者: Itay ItzhakItay Itzhak, Yonatan Belinkov, Gabriel Stanovsky

摘要

大型语言模型(LLM)表现出认知偏差——系统性的非理性决策倾向,类似于人类。先前的研究发现这些偏差因模型而异,并且可以通过指令微调而放大。然而,目前尚不清楚这些偏差的差异是否源于预训练、微调,甚至训练随机性导致的随机噪声。我们提出了一种两步因果实验方法来解开这些因素。首先,我们使用不同的随机种子多次微调模型,以研究训练随机性如何影响30多种认知偏差。其次,我们引入了交叉微调——在模型之间交换指令数据集以隔离偏差来源。这种交换使用了导致不同偏差模式的数据集,直接测试偏差是否依赖于数据集。我们的发现表明,虽然训练随机性会引入一些变异性,但偏差主要由预训练决定:具有相同预训练骨干的模型比仅共享微调数据的模型表现出更相似的偏差模式。这些见解表明,理解微调模型中的偏差需要考虑其预训练起源,而不仅仅是微调效应。这一视角可以指导未来为评估和减轻LLM偏差制定有原则的策略。
查看 arXiv 页面查看 PDF

评论

Itay ItzhakItay Itzhak
论文作者
论文提交者

🧠 LLM经常表现出类人认知偏差,例如框架效应、信念偏误和刻板印象。这些行为在指令微调后尤为突出。但它们是由微调引起的,还是仅仅被显现出来?

🧪 我们的研究通过引入一个两步因果框架来隔离以下影响,从而回答了这个问题:

  • 预训练

  • 指令微调

  • 训练随机性

💡 关键发现:

预训练是偏见产生的根源。微调?只是信使。

  • 训练随机性引入了轻微的行为变异,但偏见的方向保持一致。

  • 指令微调放大了偏见,但并未重写它。

  • 预训练是认知偏见的主要来源。即使指令数据集被交换(通过交叉微调),模型的偏见配置文件仍然与其预训练骨干保持关联。

abstract.png

casual_graph.png

pca_results.png