⏶18
视觉语言模型存在偏见
发表
由
taesiri 提交

作者:
An Vo, Khai-Nguyen Nguyen,
Mohammad Reza Taesiri,
Vy Tuong Dang,
Anh Totti Nguyen, Daeyoung Kim


摘要
大型语言模型(LLMs)从互联网上记忆了大量的先验知识,这些知识有助于它们完成下游任务,但也可能众所周知地使其输出偏向错误或有偏见的答案。在这项工作中,我们测试了关于热门主题的知识如何损害视觉语言模型(VLMs)在计数和识别等标准、客观视觉任务上的准确性。我们发现最先进的VLM存在强烈偏见(例如,无法识别阿迪达斯三条纹标志是否添加了第四条纹),在动物、标志、棋盘、棋类游戏、光学错觉到图案网格等7个不同领域中,计数(例如,计算类似阿迪达斯标志中的条纹)的平均准确率仅为17.05%。将描述主题名称的文本(例如,“Adidas”)插入反事实图像中会进一步降低VLM的准确性。VLM中的偏见如此强烈,以至于指示它们复核结果或完全依赖图像细节来回答,平均也只能将计数准确率提高2个百分点。我们的工作揭示了VLM中一种有趣的失效模式,并提供了一个测试VLM偏见的自动化框架。代码和数据可在此处获取:vlmsarebiased.github.io。
2505.23941