⏶63
LLM 中的地缘政治偏见:当代语言模型眼中的“好”国家和“坏”国家
发表
由
Mikhail Salnikov 提交
作者:
Mikhail Salnikov, Dmitrii Korzh,
Ivan Lazichny, Elvir Karimov, Artyom Iudin,
Ivan Oseledets, Oleg Y. Rogov,
Alexander Panchenko, Natalia Loukachevitch,
Elena Tutubalina

摘要
本文通过分析大型语言模型(LLM)对具有冲突国家视角(美国、英国、苏联和中国)的历史事件的解读,评估了其中存在的地缘政治偏见。我们引入了一个新的数据集,其中包含中立的事件描述以及来自不同国家的对比观点。我们的研究结果显示出显著的地缘政治偏见,模型倾向于支持特定的国家叙事。此外,简单的去偏提示在减少这些偏见方面的效果有限。对经过篡改的参与者标签进行的实验揭示了模型对归因的敏感性,有时会放大偏见或识别不一致之处,尤其是在标签被交换的情况下。这项工作揭示了LLM中的国家叙事偏见,挑战了简单去偏方法的有效性,并为未来的地缘政治偏见研究提供了框架和数据集。
一个带交互式探索器的单页网站
Arxiv
Github