RefVNLI:旨在对主体驱动的文本到图像生成进行可扩展的评估

发表
Aviv SlobodkinAviv Slobodkin 提交
作者: Aviv SlobodkinAviv Slobodkin, Hagai Taitelbaum, Yonatan Bitton, Brian Gordon, Michal Sokolik, Nitzan Bitton Guetta, Almog Gueta, Royi Rassin, Itay Laish, Dani Lischinski, Idan Szpektor

摘要

主体驱动的文本到图像(T2I)生成旨在生成与给定文本描述一致的图像,同时保留参考主体图像的视觉特征。尽管其下游应用广泛——从增强图像生成的个性化到视频渲染中一致的角色表现——该领域的进展受到缺乏可靠自动评估的限制。现有方法要么只评估任务的一个方面(即文本一致性或主体保留),要么与人类判断不一致,要么依赖昂贵的基于API的评估。为了解决这个问题,我们引入了RefVNLI,这是一种经济高效的指标,可以在一次预测中评估文本一致性和主体保留。RefVNLI在一个从视频推理基准和图像扰动派生的大规模数据集上进行训练,在多个基准和主体类别(例如动物、物体)上优于或匹配现有基线,在文本一致性方面提升高达6.4点,在主体一致性方面提升高达8.5点。它在不太知名的概念上也表现出色,与人类偏好的一致性超过87%。
查看 arXiv 页面查看 PDF

评论

Aviv SlobodkinAviv Slobodkin
论文作者
论文提交者

主体驱动的文本到图像(T2I)生成旨在生成与给定文本描述对齐的图像,同时保留参考主体图像的视觉特征。尽管它具有广泛的下游应用——从图像生成中增强的个性化到视频渲染中一致的角色表现——但该领域的进展受到缺乏可靠自动评估的限制。现有方法要么只评估任务的一个方面(即文本对齐或主体保留),要么与人类判断不符,或依赖昂贵的基于API的评估。为了解决这个问题,我们引入了RefVNLI,这是一种经济高效的度量标准,可以在一次预测中同时评估文本对齐和主体保留。RefVNLI在源自视频推理基准测试和图像扰动的大规模数据集上进行训练,在多个基准测试和主体类别(例如,动物、物体)上优于或匹配现有基线,在文本对齐方面实现了高达6.4点的增益,在主体一致性方面实现了8.5点的增益。它在不太为人知的概念上也表现出色,与人类偏好的一致性达到87%以上。