⏶3
HoPE: 视觉-语言模型中的长度泛化混合位置编码
发表
由
Haoran Li 提交

作者:
Haoran Li, Yingjie Qin, Baoyuan Ou, Lai Xu, Ruiwen Xu

摘要
视觉-语言模型 (VLMs) 在多模态任务中取得了显著进展。然而,其性能在长上下文场景中常常下降,特别是长视频。尽管旋转位置嵌入 (RoPE) 已被广泛采用用于大型语言模型 (LLMs) 中的长度泛化,但将原版 RoPE 扩展以捕获视频中复杂的时空依赖性仍然是一个未解决的挑战。现有方法通常在 RoPE 中分配不同频率来编码三维位置信息。然而,这些分配策略主要依赖启发式方法,缺乏深入的理论分析。在本文中,我们首先研究不同分配策略如何影响 VLMs 的长上下文能力。我们的分析表明,当前的多模态 RoPEs 未能可靠地捕获较长上下文上的语义相似性。为了解决这个问题,我们提出了 HoPE,一种旨在提高 VLMs 长上下文能力的混合位置嵌入方法 (Hybrid of Position Embedding)。HoPE 引入了一种混合频率分配策略,用于在任意长上下文上进行可靠的语义建模,以及一种动态时间尺度机制,用于促进在不同上下文长度下的鲁棒学习和灵活推理。在关于长视频理解和检索任务的四个视频基准上进行的大量实验表明,HoPE 持续优于现有方法,证实了其有效性。代码已开源于 https://github.com/hrlics/HoPE。
🔧 将旋转位置嵌入 (RoPE) 扩展到多模态场景通常需要分配不同的频率来编码不同的位置分量(即 t、x、y)。
🤔 在本文中,我们首先研究了不同的频率分配策略如何影响 VLM 的语义建模能力。我们的分析表明,当前的多模态 RoPE 在长期语义建模中不可靠。此外,我们指出,现有视觉 token 的时间索引缩放缺乏推理时的灵活性和鲁棒性,因为视频会以不同的速度进行,并表现出信息密度的显著差异。
✨ 在我们的分析指导下,我们提出了 HoPE。HoPE 结合了多模态 RoPE 和 NoPE,以促进对扩展上下文的可靠语义建模。此外,HoPE 引入了动态和双向时间索引缩放,以增强 VLM 对不同速度视频的鲁棒性,这在现实世界场景中很常见。
代码可在以下链接获取:https://github.com/hrlics/HoPE