⏶6
他们是恋人还是朋友?评估 LLM 在英语和韩语对话中的社会推理能力
发表
由
Eunsu Kim 提交
作者:
Eunsu Kim, Junyeong Park, Juhyun Oh, Kiwoong Park,
Seyoung Song, A. Seza Dogruoz, Najoung Kim, Alice Oh
摘要
AI 生成总结
当前的大型语言模型在社会推理方面存在显著局限性,尤其是在推断不同语言间的人际关系方面,而思维模型或思维链提示提供的改进微乎其微。随着大型语言模型(LLM)越来越多地用于人机交互,
它们在人际关系背景下的社会推理能力变得至关重要。
我们引入了 SCRIPTS,一个包含 1000
个对话的数据集,涵盖英语和韩语,源自电影剧本。
该任务旨在评估模型推断每个对话中说话者之间人际关系(例如朋友、姐妹、恋人)的社会推理能力。
每个对话都由来自韩国和美国的母语(或同等水平)韩语和英语使用者用概率关系标签(极有可能、可能性较小、不太可能)进行标注。
对九个模型进行任务评估,目前的专有 LLM 在英语数据集上达到 75-80%
左右,而在韩语数据集上的性能则下降到 58-69%。更引人注目的是,
模型在 10-25% 的响应中选择了“不太可能”的关系。
此外,我们发现思维模型和思维链提示(对一般推理有效)对社会推理的好处微乎其微,
有时甚至会放大社会偏见。我们的发现揭示了当前 LLM
社会推理能力的显著局限性,强调了开发具有社会意识的语言模型的需求。
github: https://github.com/rladmstn1714/SCRIPTS