⏶8
RePOPE:标注错误对 POPE 基准测试的影响
发表
由
Yannic Neuhaus 提交

作者:
Yannic Neuhaus, Matthias Hein

摘要
由于数据标注成本高昂,基准数据集通常会整合来自已建立图像数据集的标签。在这项工作中,我们评估了 MSCOCO 中的标签错误对常用目标幻觉基准 POPE 的影响。我们重新标注了基准图像,并识别出不同子集之间的标注错误存在不平衡。我们在修订后的标签(我们称之为 RePOPE)上评估了多个模型,观察到模型排名发生了显著变化,突显了标签质量的影响。代码和数据可在 https://github.com/YanNeu/RePOPE 获取。
由于数据标注成本高昂,基准数据集通常会整合来自已有图像数据集的标签。在这项工作中,我们评估了 MSCOCO 数据集中的标签错误对常用物体幻觉基准 POPE 的影响。我们重新标注了基准图像,并发现了不同子集中标注错误的不平衡。在我们称为 RePOPE 的修订标签上评估了多个模型后,我们观察到模型排名的显著变化,这突显了标签质量的影响。代码和数据可在 https://github.com/YanNeu/RePOPE 获取。