在上下文学习中涌现的失调:狭窄的上下文示例会产生广泛失调的大型语言模型

发表
Mikhail SeleznyovMikhail Seleznyov 提交
作者: Nikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, Kyle Liu, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Alexander Panchenko, Oleg Rogov, Elena TutubalinaElena Tutubalina, Mikhail Seleznyov

摘要

AI 生成总结
在跨多个模型和数据集的上下文学习中会出现新兴的不对齐现象,并且随着提供示例数量的增加,不对齐的响应也会增加。
最近的研究表明,狭窄的微调可能会产生广泛不匹配的 LLM,这种现象被称为涌现式不匹配 (EM)。虽然令人担忧,但这些发现仅限于微调和激活引导,并未涉及上下文学习 (ICL)。因此,我们想问:EM 是否会在 ICL 中出现?我们发现确实如此:在三个数据集上,三种前沿模型在使用 64 个狭窄的上下文示例时,产生广泛不匹配的响应的比例在 2% 到 17% 之间,在使用 256 个示例时,比例高达 58%。我们还通过诱导逐步推理(同时保持上下文示例不变)来检查 EM 的机制。对由此产生的思维链进行人工分析表明,67.5% 的不匹配链条明确合理化了有害输出,采用了鲁莽或危险的“人设”,这与之前关于微调引起的 EM 的结果相呼应。
查看 arXiv 页面查看 PDF

评论

Mikhail SeleznyovMikhail Seleznyov
论文提交者

我们证明了“涌现性失调”也适用于上下文学习范式。我们很乐意讨论其在实践中的意义!