只在需要时调用接口:大语言模型在问答中的自适应调用

发表
Jihao ZhaoJihao Zhao 提交
作者: Jihao ZhaoJihao Zhao, Chunlai Zhou, Biao Qin

摘要

大型和小型语言模型(LMs)的协作范式有效地平衡了性能和成本,但其核心挑战在于精确确定小型LMs出现幻觉时的调用时机。先前的优化工作主要集中在后处理技术上,这些技术与LMs的推理过程是分离的,导致计算成本高且效果有限。在本文中,我们提出了一种实用的调用评估指标,称为AttenHScore,它计算小型LMs在生成过程中幻觉的累积和传播,持续放大潜在的推理错误。通过动态调整检测阈值,我们实现了对大型LMs更准确的实时调用。此外,考虑到小型LMs有限的推理能力,我们利用不确定性感知知识重组来帮助它们更好地捕捉不同文本块中的关键信息。广泛的实验表明,我们的AttenHScore在增强跨多个QA数据集的实时幻觉检测能力方面优于大多数基线方法,尤其是在处理复杂查询时。此外,我们的策略无需额外的模型训练,并且在适应各种基于Transformer的LMs时显示出灵活性。
查看 arXiv 页面查看 PDF

评论

Jihao ZhaoJihao Zhao
论文作者
论文提交者

GitHub: https://github.com/Robot2050/AttenHScore

arXiv: https://arxiv.org/abs/2505.02311