⏶8
CoMemo:LVLM需要图像上下文和图像记忆
发表
由
Shi Liu 提交
作者:
Shi Liu,
Weijie Su, Xizhou Zhu, Wenhai Wang, Jifeng Dai
摘要
基于大型语言模型构建的大型视觉-语言模型(LVLM)的最新进展,已将视觉特征与LLM表示对齐确立为主导范式。然而,继承自LLM的架构设计为多模态处理带来了次优特性。首先,LVLM在注意力分配上表现出双峰分布,导致随着上下文的扩展,中间视觉内容逐渐被忽视。其次,传统的 позиционная кодировка(位置编码)方案在处理动态高分辨率图像时未能保留重要的2D结构关系。为了解决这些限制,我们提出了CoMemo——一种双路径架构,它结合了用于视觉处理的上下文图像路径(Context image path)和图像记忆路径(image Memory path),有效地缓解了视觉信息被忽视的问题。此外,我们引入了RoPE-DHR,这是一种新颖的位置编码机制,它采用基于缩略图的位置聚合,以在保持2D空间感知的同时,减轻扩展序列中的远程衰减。在包括长上下文理解、多图像推理和视觉问答在内的七个基准测试上的评估表明,CoMemo相比传统LVLM架构表现出卓越的性能。项目页面可在https://lalbj.github.io/projects/CoMemo/访问。
LVLM(大型视觉语言模型)继承了LLM(大型语言模型)的架构设计,这为多模态处理引入了次优特性。首先,LVLM在注意力分配上呈现双峰分布,导致随着上下文的扩展,中心视觉内容逐渐被忽略。其次,传统的位编码方案在处理动态高分辨率图像时未能保留重要的2D结构关系。
为解决这些问题,我们提出了CoMemo,一种新颖的模型架构。CoMemo采用双路径视觉处理方法:一条路径将图像标记映射到文本标记表示空间进行因果自注意力,而另一条路径引入了交叉注意力,实现了输入序列与图像信息之间的上下文无关计算。此外,我们开发了RoPE-DHR,一种专为处理动态高分辨率输入的LVLM设计的新型位编码方法。RoPE-DHR减轻了由动态高分辨率输入引起的远距离衰减问题,同时保留了图像的2D结构信息。
在包括长上下文理解、多图像推理和视觉问答在内的七项不同任务上进行评估,CoMemo在“字幕”(Caption)、“长生成”(Long-Generation)和“长上下文”(Long-Context)任务上分别取得了17.2%、7.0%和5.6%的相对改进,并在各种基准测试中展现出持续的性能提升。更多详情,请参阅我们的论文和GitHub。