LLM 中的地缘政治偏见:当代语言模型眼中的“好”国家和“坏”国家

发表
Mikhail SalnikovMikhail Salnikov 提交
作者: Mikhail SalnikovMikhail Salnikov, Dmitrii Korzh, IvanIvan Lazichny, Elvir Karimov, Artyom Iudin, Ivan OseledetsIvan Oseledets, Oleg Y. Rogov, Alexander PanchenkoAlexander Panchenko, Natalia Loukachevitch, Elena TutubalinaElena Tutubalina

摘要

本文通过分析大型语言模型(LLM)对具有冲突国家视角(美国、英国、苏联和中国)的历史事件的解读,评估了其中存在的地缘政治偏见。我们引入了一个新的数据集,其中包含中立的事件描述以及来自不同国家的对比观点。我们的研究结果显示出显著的地缘政治偏见,模型倾向于支持特定的国家叙事。此外,简单的去偏提示在减少这些偏见方面的效果有限。对经过篡改的参与者标签进行的实验揭示了模型对归因的敏感性,有时会放大偏见或识别不一致之处,尤其是在标签被交换的情况下。这项工作揭示了LLM中的国家叙事偏见,挑战了简单去偏方法的有效性,并为未来的地缘政治偏见研究提供了框架和数据集。
查看 arXiv 页面查看 PDF

评论

Mikhail SalnikovMikhail Salnikov
论文作者
论文提交者

telegram-cloud-photo-size-2-5353051830063590719-y.jpg

一个带交互式探索器的单页网站

Arxiv

Github