⏶2
眼见为实,但可信度几何? 对视觉-语言模型中言语化校准的综合分析
发表
由
Qingcheng Zeng 提交
作者: Weihao Xuan, Qingcheng Zeng, Heli Qi, Junjue Wang, Naoto Yokoya
摘要
不确定性量化对于评估现代 AI 系统的可靠性和可信度至关重要。在现有方法中,口头化不确定性(模型通过自然语言表达其置信度)已成为大型语言模型 (LLM) 中一种轻量级且可解释的解决方案。然而,其在视觉语言模型 (VLM) 中的有效性仍未得到充分研究。在这项工作中,我们对 VLM 中的口头化置信度进行了全面评估,涵盖了三种模型类别、四种任务领域和三种评估场景。我们的结果表明,当前的 VLM 在各种任务和设置中经常表现出显著的校准不良。值得注意的是,视觉推理模型(即利用图像进行思考的模型)始终表现出更好的校准,这表明模态特定的推理对于可靠的不确定性估计至关重要。为了进一步解决校准挑战,我们引入了视觉置信度感知提示 (Visual Confidence-Aware Prompting),这是一种两阶段提示策略,可在多模态设置中改善置信度对齐。总体而言,我们的研究强调了 VLM 在不同模态中固有的校准不良问题。更广泛地说,我们的发现强调了模态对齐和模型保真度对于推进可靠多模态系统的根本重要性。
首个关于VLM中言语置信度的系统性研究!