⏶4
MINED:利用多模态时效知识探测和更新大型多模态模型
发表
由
kailinjiang 提交
作者:
Kailin Jiang, Ning Jiang, Yuchen Ren, Yuchen Li, Yifan Gao, Jinhe Bi, Yunpu Ma, Qingqing Liu, Xianhao Wang, Yifan Jia, Hongbo Jiang, Yaocong Hu, Bin Li, Lei Liu, Yuntao Du
摘要
大型多模态模型(LMM)通过跨模态预训练编码丰富的知识,
但其静态表示难以保持对时效性知识的准确理解。现有基准仍受静态设计的限制,
未能充分评估 LMM
理解时效性知识的能力。为了弥补这一空白,我们提出了 MINED,
一个综合性基准,从认知、意识、可信度、理解、推理和鲁棒性 6
个关键维度和 11 个挑战性任务评估时间意识。MINED
由两位专业标注员从维基百科构建而成,包含 2,104
个跨越六种知识类型的时效性知识样本。对 MINED
上 15 个广泛使用的 LMM
进行评估表明,Gemini-2.5-Pro 取得了最高的平均 CEM
分数 63.07,而大多数开源 LMM
仍然缺乏时间理解能力。同时,LMM
在组织知识方面的表现最佳,而在体育方面的表现最弱。
为了应对这些挑战,我们研究了通过知识编辑方法更新 LMM
中时效性知识的可行性,并观察到 LMM
可以在单一编辑场景中通过知识编辑方法有效更新知识。
时间意识评估、全面基准测试和多维度分析!