MINED:利用多模态时效知识探测和更新大型多模态模型

发表
kailinjiangkailinjiang 提交
作者: kailinjiangKailin Jiang, Ning Jiang, Yuchen Ren, Yuchen Li, Yifan Gao, Jinhe Bi, Yunpu Ma, Qingqing Liu, Xianhao Wang, Yifan Jia, Hongbo Jiang, Yaocong Hu, Bin Li, Lei Liu, Yuntao Du

摘要

大型多模态模型(LMM)通过跨模态预训练编码丰富的知识, 但其静态表示难以保持对时效性知识的准确理解。现有基准仍受静态设计的限制, 未能充分评估 LMM 理解时效性知识的能力。为了弥补这一空白,我们提出了 MINED, 一个综合性基准,从认知、意识、可信度、理解、推理和鲁棒性 6 个关键维度和 11 个挑战性任务评估时间意识。MINED 由两位专业标注员从维基百科构建而成,包含 2,104 个跨越六种知识类型的时效性知识样本。对 MINED 上 15 个广泛使用的 LMM 进行评估表明,Gemini-2.5-Pro 取得了最高的平均 CEM 分数 63.07,而大多数开源 LMM 仍然缺乏时间理解能力。同时,LMM 在组织知识方面的表现最佳,而在体育方面的表现最弱。 为了应对这些挑战,我们研究了通过知识编辑方法更新 LMM 中时效性知识的可行性,并观察到 LMM 可以在单一编辑场景中通过知识编辑方法有效更新知识。
查看 arXiv 页面查看 PDF

评论

kailinjiangkailinjiang
论文作者
论文提交者

时间意识评估、全面基准测试和多维度分析!

overview