是否信任你的视觉语言模型的预测

发表
Hao DongHao Dong 提交
作者: Hao DongHao Dong, Moru Liu, Jian Liang, Eleni Chatzi, Olga Fink

摘要

视觉-语言模型(VLMs)在对齐视觉和文本模态方面展示了强大能力,支持了多模态理解和生成领域的广泛应用。尽管它们在零样本和迁移学习场景中表现出色,但VLMs仍然容易出现错误分类,经常产生自信但不正确的预测。这一局限在安全关键领域带来了显著风险,错误的预测可能导致严重后果。在本文中,我们引入了TrustVLM,一个旨在解决何时可以信任VLM预测这一关键挑战的免训练框架。受观察到的VLM模态差距以及某些概念在图像嵌入空间中表达更清晰的见解所启发,我们提出了一种新颖的置信度评分函数,该函数利用这一空间改进错误分类检测。我们在17个不同数据集、4种架构和2个VLM上严格评估了我们的方法,结果表明其性能达到了最先进水平,相较于现有基线,AURC方面提高了高达51.87%,AUROC方面提高了9.14%,FPR95方面提高了32.42%。通过在无需重新训练的情况下提高模型的可靠性,TrustVLM为VLMs在真实世界应用中的更安全部署铺平了道路。代码将在 https://github.com/EPFL-IMOS/TrustVLM 提供。
查看 arXiv 页面查看 PDF

评论

Hao DongHao Dong
论文作者
论文提交者

我们引入了TrustVLM,这是一个免训练框架,旨在解决估算VLM(视觉语言模型)预测何时值得信任的关键挑战。