⏶4
RAVENEA: 一个用于多模态检索增强视觉文化理解的基准
发表
由
Jiaang Li 提交
作者:
Jiaang Li, Yifei Yuan, Wenyan Li, Mohammad Aliannejadi, Daniel Hershcovich, Anders Søgaard, Ivan Vulić, Wenxuan Zhang, Paul Pu Liang, Yang Deng, Serge Belongie
摘要
随着视觉-语言模型(VLMs)日益融入日常生活,对准确理解视觉文化的需求变得至关重要。然而,这些模型在有效解释文化细微差别方面经常力有不逮。先前的工作已经证明了检索增强生成(RAG)在增强纯文本环境下的文化理解方面的有效性,然而其在多模态场景中的应用仍未得到充分探索。为了弥合这一差距,我们引入了RAVENEA(检索增强视觉文化理解),这是一个旨在通过检索推进视觉文化理解的新基准,侧重于两项任务:文化焦点视觉问答(cVQA)和文化知情图像字幕(cIC)。RAVENEA通过整合由人工标注者筛选和排序的超过10,000份维基百科文档,扩展了现有数据集。利用RAVENEA,我们针对每个图像查询训练和评估了七种多模态检索器,并在十四种最先进的VLM上衡量了检索增强输入对下游任务的影响。我们的结果表明,轻量级VLM在通过文化感知检索进行增强时,表现优于未增强的对应模型(在cVQA上绝对提升至少3.2%,在cIC上绝对提升至少6.2%)。这凸显了检索增强方法和文化包容性基准对于多模态理解的价值。
网站:https://jiaangli.github.io/RAVENEA/
代码:https://github.com/yfyuan01/RAVENEA
数据:https://huggingface.co/datasets/jaagli/ravenea