⏶1
重新审视语言模型中的不确定性量化评估: 与回复长度偏差结果的虚假交互作用
发表
由
Andrea Santilli 提交

作者:
Andrea Santilli, Adam Golinski, Michael Kirchhof, Federico Danieli, Arno Blaas, Miao Xiong, Luca Zappella, Sinead Williamson

摘要
语言模型(LM)中不确定性量化(UQ)对于提高其安全性和可靠性至关重要。评估通常使用诸如 AUROC 等性能指标来评估不确定性量化方法(例如,负序列概率)与任务正确性函数(例如,ROUGE-L)的相关性。在本文中,我们表明常用的正确性函数会通过夸大某些不确定性量化方法的性能来偏倚不确定性量化评估。我们评估了 7 个正确性函数——从基于词汇的和基于嵌入的指标到以 LLM 作为评判器的方法——跨越 4 个数据集 x 4 个模型 x 6 个不确定性量化方法。我们的分析表明,这些正确性函数的误差中的长度偏差通过与不确定性量化方法中的长度偏差相互作用,扭曲了不确定性量化评估。我们认为以 LLM 作为评判器的方法是长度偏差最小的选择之一,因此是缓解这些偏差的潜在解决方案。
语言模型 (LM) 中的不确定性量化 (UQ) 对于提高其安全性和可靠性至关重要。评估通常使用像 AUROC 这样的性能指标来评估不确定性量化 (UQ) 方法(例如,负序列概率)与任务正确性函数(例如,ROUGE-L)的关联程度。在本文中,我们指出常用的正确性函数会通过夸大某些不确定性量化 (UQ) 方法的性能,从而偏置 UQ 评估。我们评估了 7 种正确性函数——从基于词汇和基于嵌入的指标到 LLM 作为评判者的方法——在 4 个数据集、4 个模型和 6 种不确定性量化方法上。我们的分析表明,这些正确性函数误差中的长度偏差会通过与不确定性量化 (UQ) 方法中的长度偏差相互作用,从而扭曲不确定性量化评估。我们将 LLM 作为评判者的方法认定为长度偏差最小的选择之一,因此是缓解这些偏差的潜在解决方案。