RePOPE:标注错误对 POPE 基准测试的影响

发表
Yannic NeuhausYannic Neuhaus 提交
作者: Yannic NeuhausYannic Neuhaus, Matthias Hein

摘要

由于数据标注成本高昂,基准数据集通常会整合来自已建立图像数据集的标签。在这项工作中,我们评估了 MSCOCO 中的标签错误对常用目标幻觉基准 POPE 的影响。我们重新标注了基准图像,并识别出不同子集之间的标注错误存在不平衡。我们在修订后的标签(我们称之为 RePOPE)上评估了多个模型,观察到模型排名发生了显著变化,突显了标签质量的影响。代码和数据可在 https://github.com/YanNeu/RePOPE 获取。
查看 arXiv 页面查看 PDF

评论

Yannic NeuhausYannic Neuhaus
论文作者
论文提交者

由于数据标注成本高昂,基准数据集通常会整合来自已有图像数据集的标签。在这项工作中,我们评估了 MSCOCO 数据集中的标签错误对常用物体幻觉基准 POPE 的影响。我们重新标注了基准图像,并发现了不同子集中标注错误的不平衡。在我们称为 RePOPE 的修订标签上评估了多个模型后,我们观察到模型排名的显著变化,这突显了标签质量的影响。代码和数据可在 https://github.com/YanNeu/RePOPE 获取。