位置不确定性:大型语言模型中位置偏差的跨语言研究

发表
Egor ShvetsovEgor Shvetsov 提交
作者: Menschikov Mikhail, Alexander KharitonovAlexander Kharitonov, Maiia KotygaMaiia Kotyga, Vadim Porvatov, Anna Zhukovskaya, David KagramanyanDavid Kagramanyan, Egor Shvetsov, Evgeny Burnaev

摘要

大型语言模型表现出位置偏差——系统性地忽略特定上下文位置的信息——然而,它与语言多样性的相互作用仍未得到充分理解。我们提出了一项跨语言研究,涵盖五种类型学上不同的语言(英语、俄语、德语、印地语、越南语),考察位置偏差如何与模型不确定性、句法和提示工程相互作用。主要发现:(1) 位置偏差是模型驱动的,并存在语言特有的变异——Qwen2.5-7B 偏向后期位置,这挑战了早期 token 偏差的假设;(2) 显式的位置引导(例如,正确上下文位于位置 X)降低了跨语言的准确性,这削弱了提示工程实践;(3) 将上下文与位置偏差对齐增加了熵,然而最小熵并不能预测准确性。(4) 我们进一步发现,大型语言模型在印地语等自由词序语言中,以不同方式施加主导词序。
查看 arXiv 页面查看 PDF
位置不确定性:大型语言模型中位置偏差的跨语言研究

评论

Egor ShvetsovEgor Shvetsov
论文提交者

Screenshot_select-area_20250526180627.png