⏶14
生成过程需谨慎:LLM生成过程中的细粒度置信度估计
发表
由
Jinyi Han 提交

作者:
Jinyi Han, Tingyun Li, Shisong Chen, Jie Shi, Xinyi Wang, Guanglei Yue, Jiaqing Liang, Xin Lin, Liqian Wen, Zulong Chen, Yanghua Xiao

摘要
尽管大型语言模型 (LLMs) 在各种任务中都表现出了卓越的性能,但它们本质上缺乏自我意识,并且经常表现出过度自信,对错误的预测赋予了高置信度分数。因此,准确的置信度估计对于提高 LLM 生成输出的信任度和可靠性至关重要。然而,现有方法受限于粗粒度的评分机制,无法在整个生成过程中提供细粒度的、连续的置信度估计。为了解决这些局限性,我们推出了 FineCE,一种新颖的置信度估计方法,可在文本生成过程中提供准确、细粒度的置信度分数。具体来说,我们首先开发了一个全面的管道来构建训练数据,该管道能有效地捕获 LLM 响应的底层概率分布,然后以监督方式训练一个模型来预测任意文本序列的置信度分数。此外,我们提出了一种反向置信度集成 (BCI) 策略,该策略在推理过程中利用后续文本的信息来增强当前序列的置信度估计。我们还引入了三种策略来识别在生成过程中执行置信度估计的最佳位置。在多个基准数据集上的广泛实验表明,FineCE 的性能始终优于现有的经典置信度估计方法。我们的代码和论文中使用的所有基线均可在 GitHub 上找到。
评论

论文作者
论文提交者