I2CR: 多模态实体链接的模内和模间协同反思

发表
刘子言刘子言 提交
作者: Ziyan Liu, Junwen Li, Kaiwen Li, Tong Ruan, Chao Wang, Xinyan He, Zongyu Wang, Xuezhi Cao, Jingping Liu

摘要

多模态实体链接在广泛的应用中扮演着至关重要的角色。最近基于大型语言模型的方法已成为这项任务的主导范式,有效地利用文本和视觉模态来提高性能。尽管取得了成功,这些方法仍然面临两个挑战,包括在某些场景下不必要地引入图像数据,以及仅依赖于一次性提取视觉特征,这可能会损害其有效性和准确性。为了解决这些挑战,我们提出了一种新颖的、基于大型语言模型的多模态实体链接框架,名为“模态内与模态间协作反思”(Intra- and Inter-modal Collaborative Reflections)。该框架优先利用文本信息来解决任务。当仅凭文本不足以通过模态内和模态间评估链接到正确的实体时,它采用多轮迭代策略,整合图像各个方面的关键视觉线索来支持推理并提高匹配准确性。在三个广泛使用的公共数据集上进行的广泛实验表明,我们的框架在该任务中始终优于当前最先进的方法,分别实现了3.2%、5.1%和1.6%的改进。我们的代码可在 https://github.com/ziyan-xiaoyu/I2CR/ 获取。
查看 arXiv 页面查看 PDF

评论

刘子言刘子言
论文提交者

多模态实体链接在广泛的应用中扮演着至关重要的角色。最近基于大型语言模型的方法取得了进展,已成为该任务的主导范式,有效利用文本和视觉模态来提升性能。尽管取得了成功,这些方法仍面临两个挑战:在某些场景下不必要地引入图像数据,以及仅仅依赖一次性的视觉特征提取,这可能会削弱它们的有效性和准确性。为了解决这些挑战,我们提出了一种新颖的基于大型语言模型的多模态实体链接框架,名为“模态内与模态间协同反思”(Intra- and Inter-modal Collaborative Reflections)。该框架优先利用文本信息来解决任务。当仅凭文本不足以通过模态内和模态间评估链接到正确实体时,它会采用多轮迭代策略,整合来自图像不同方面的关键视觉线索,以支持推理并提高匹配准确性。在三个广泛使用的公共数据集上进行的大量实验表明,我们的框架在该任务中持续优于当前最先进的方法,分别实现了3.2%、5.1%和1.6%的改进。我们的代码可在 https://github.com/ziyan-xiaoyu/I2CR/ 获取。