透过镜子:对怪异图像的常识一致性评估

发表
Vasily KonovalovVasily Konovalov 提交
作者: Rykov EliseiElisei Rykov, KseniiaKseniia Petrushina, Kseniia Titova, Anton Razzhigaev, Alexander Panchenko, Vasily KonovalovVasily Konovalov

摘要

衡量图像的真实程度是人工智能研究中的一项复杂任务。例如,一个在沙漠中拿着吸尘器的男孩的图像就违反了常识。我们引入了一种新颖的方法,我们称之为“透过镜子”(TLG),用于评估图像的常识一致性,利用大规模视觉-语言模型(LVLM)和基于Transformer的编码器。通过利用LVLM从这些图像中提取原子事实,我们获得了一系列包含准确信息的原子事实。接着,我们对编码后的原子事实微调了一个紧凑的注意力池化分类器。我们的TLG在WHOOPS!和WEIRD数据集上取得了新的最先进性能,同时利用了一个紧凑的微调组件。
查看 arXiv 页面查看 PDF

评论

Vasily KonovalovVasily Konovalov
论文作者
论文提交者

衡量真实图像的观感是人工智能研究中的一项复杂任务。例如,一张描绘一个男孩在沙漠中拿着吸尘器的图片就违背了常识。我们引入了一种新颖的方法,称之为“通过镜子看世界”(Through the Looking Glass,简称 TLG),该方法利用大型视觉-语言模型(LVLMs)和基于 Transformer 的编码器来评估图像的常识一致性。通过利用 LVLMs 从这些图像中提取原子事实,我们获得了一系列准确的事实。接着,我们对编码后的原子事实上微调一个紧凑的注意力池化分类器。我们的 TLG 方法在 WHOOPS! 和 WEIRD 数据集上取得了新的最先进性能,同时利用了一个紧凑的微调组件。

Vasily KonovalovVasily Konovalov
论文作者
论文提交者

strange_img_42.jpg