⏶63

LLM 中的地缘政治偏见：当代语言模型眼中的“好”国家和“坏”国家

06月07日发表

06月11日由 Mikhail Salnikov 提交

作者: Mikhail Salnikov, Dmitrii Korzh, Ivan Ivan Lazichny, Elvir Karimov, Artyom Iudin, Ivan Oseledets, Oleg Y. Rogov, Alexander Panchenko, Natalia Loukachevitch, Elena Tutubalina

摘要

本文通过分析大型语言模型（LLM）对具有冲突国家视角（美国、英国、苏联和中国）的历史事件的解读，评估了其中存在的地缘政治偏见。我们引入了一个新的数据集，其中包含中立的事件描述以及来自不同国家的对比观点。我们的研究结果显示出显著的地缘政治偏见，模型倾向于支持特定的国家叙事。此外，简单的去偏提示在减少这些偏见方面的效果有限。对经过篡改的参与者标签进行的实验揭示了模型对归因的敏感性，有时会放大偏见或识别不一致之处，尤其是在标签被交换的情况下。这项工作揭示了LLM中的国家叙事偏见，挑战了简单去偏方法的有效性，并为未来的地缘政治偏见研究提供了框架和数据集。

查看 arXiv 页面查看 PDF

Mikhail Salnikov

论文作者

论文提交者

一个带交互式探索器的单页网站

Arxiv

Github

LLM 中的地缘政治偏见：当代语言模型眼中的“好”国家和“坏”国家

摘要

评论