缺陷还是人造物?重新思考评估大型语言模型的提示敏感性

发表
Kenan TangKenan Tang 提交
作者: Andong Hua, Kenan TangKenan Tang, Chenhe Gu, Jindong Gu, Eric Wong, Yao Qin

摘要

提示敏感性,指的是释义(即,用不同词语重复写出或说出的话) 会导致大型语言模型 (LLM) 性能发生显著变化这一现象, 已被广泛认为是 LLM 的一个核心局限性。在本工作中,我们重新审视了这个问题,并提出: 普遍报道的高提示敏感性真的是 LLM 的固有弱点, 还是主要评估过程中的产物?为了回答这个问题,我们系统地评估了 7 种 LLM(例如,GPT 和 Gemini 系列), 涵盖了 6 个基准测试,包括多项选择题和开放式任务,涉及 12 种不同的提示模板。我们发现, 大部分提示敏感性源于启发式评估方法,包括对数似然评分和僵化的答案匹配, 这些方法常常忽略通过同义词或释义等替代表达方式表达的语义正确的回复。 当我们采用 LLM-as-a-Judge 评估时,我们观察到性能方差大幅降低, 模型在不同提示下的排名相关性也持续更高。我们的发现表明, 现代 LLM 对提示模板的鲁棒性比之前预期的要强, 而提示敏感性可能更多是评估的产物,而非模型本身的缺陷。
查看 arXiv 页面查看 PDF

评论

Kenan TangKenan Tang
论文作者
论文提交者

入选 EMNLP 2025 主会议